京公网安备 11010802034615号
经营许可证编号:京B2-20210330
三个你在书中无法学到的数据分析知识_数据分析师
在大数据特别热门的今天,出现了各种培训课程。但我发现这些课程的重点都放在算法的学习上。如何理解logistic回归或深度学习的确很酷,但一旦你开始处理数据,你会发现还有其他的东西更为重要。
我在大学里教了很多年的深度学习,这些课程和讲座总是特别注重特定的算法,你学习支持向量机器、高斯混合模型的聚类、k-均值等等,但是只有在你写硕士论文的时候你需要用到这些方法。
那么什么才是正确的呢?关键就是你要保证你做的模型对于未来的数据也能有好的表现。所以我在这里教你三个书本不能教给你的知识。
一、对模型的有正确的认识是关键
数据分析、机器学习或是数据科学(总之是这个领域)的主要目的,就是建立一个能预测未来数据的系统。在普通情况中,你很难发现监督学习(例如分类)和无监督学习(例如聚类)之前的区别,你通常会使用你构建和设计的方法去搜集一些数据,但最终你希望你设计的模型可以应用到未来的数据,并且确保该模型行之有效,可以同你对原始数据的测验结果相同。
初学者经常会犯的一个错误就是,只看到了已有数据的表现,就认为这对未来数据是适用的。很不幸的是事实通常不是这样。例如在一个监督学习的案例中,任务是根据你的输入输出的行为来预测,例如把电子邮件分为垃圾邮件和非垃圾邮件。
如果你只考虑训练数据,那么对机器来说很容易返回完美的预测结果,只是通过死记硬背就可以。机器因为其容量大,可以存储和检索大量的数据,但这导致过度拟合,缺乏概括。
所以适当的评估方式是通过分割数据,分析一个部分,然后预测其他部分来模拟未来的结果。通常,训练部分是庞大的,过程也要重复数次,以获得几个数字来看看什么才是合适的方法,这个过程称为交叉验证。
尽管方法看起来如此可靠,还是经常会发生错误,特别是当数据是不稳定时,例如数据的基础分布会随时间变化,在现实中这是经常发生的,6月的销售数字和12月的就会有很大不同。或者数据点之间具有大量相关性,也就是说,如果你知道一个数据点意味着你已经知道了很多关于另一个数据点的信息。例如,股票价格通常在一天之内会从一个价格跳到另一个价格,如果你搜集这些数据,并做了测试,很可能会推导出和它有相关性的数据。
每当出现这种情况,你就会得到过于乐观的数字,你的方法将无法在未来真正的数据中很好地工作。在最坏的情况下,当你终于说服别人来使用你的方法时这个方法并不能达到预期效果。所以学习如何正确评估是关键!
二、一切都在于特征提取
学习到一种新的方法是令人兴奋的,但事实是,大部分最复杂的方法执行起来基本是相同的,而真正的区别是在通过学习把原始数据的特征提取出来。
现代的学习方法是非常强大的,很容易在几十秒内处理成百上千的数据点,但事实是,这些方法是非常愚蠢的,特别是线性模型(如Logistic回归,线性支持向量机)方法基本上同你的计算器一样傻乎乎。
它们善于通过足够的数据鉴定出特征,但是如果信息不足,或者没有通过输入线性组合展现特征的,它们就什么也做不了。它们也无法通过洞察数据的来实现数据自身的缩减。
换句话说,你可以通过合适的特征来大量减少数据所需的量。假设说你减少了所有要预测的函数的特征,还有什么东西需要学习,对不对?那是多么强大的特征提取!
这意味着两件事。首先,你需要确保你掌握了这些方法中的一个,而且要坚持下去。所以你真的不需要Logistic回归和线性向量机都学习,只学习其中一个就行。这也包括你需要理解哪些方法是类似的,这其中的关键点在于底层的模型。所以深度学习是不一样的,但线性模型在表现上来看是差不多的,尽管这些方法有些不同,但是在大多数的案例中都可以得到类似的预测结果。
第二点,你需要学习所有关于这个行业的特征。不幸的是这是一门艺术,而且几乎没有任何教科书可以提供,因为只有很少的理论。正常化有一个很长的道路,有时特征需要提前对数。每当你可以消除一些自由度,你就可以显著地减少你所需要训练的数据量。
有时候发现这些类型的转化是很容易的。例如如果你正在做手写字符的识别,如果有前景色和背景色的区别,字符的颜色就会变的很重要。
教科书往往只提供一些看起来很强大的方法,你需要用数据测试一下就能得出结果,这也可能是从理论观点和数据源来说是对的,但是在现实中,数据和我们的时间是有限的,所以寻找大信息量的特点是非常有必要的。
三、选型大多数是看周期,而不是数据集的大小
你不想在大数据时代过多的表达自己的观点,但是大多数数据会完美的融入你的主内存。你的方法可能不会在跑数据上花费很长时间,但是你会花很多时间从原始数据中提取出特征,进行交叉验证。为你的学习方法比较不同特征提取管道和参数。
对于模型的选择,你可以通过大量的参数组合,评估一个相同的数据副本的性能。现在的问题就是所有的组合爆炸,比方说你有两个参数,它需要大约一分钟来训练你的模型,并获得一个结果来评估数据集的性能。如果每一个参数有5个候选数值,并且执行5倍交叉验证(把数据分割成5部分,测试5次,在每次迭代中使用不同的数据来测试),这意味着你需要运行25次来找出哪种方法的效果更好,这可能需要花费两个小时的时间。
好消息是这是很容易并行化的,因为不同的运行是完全相互独立的。这同样适用于特征提取,您通常使用相同的操作(解析,提取,转换等),以每个数据独立设置,导致一些“ 密集并行”(是的,这是一个技术术语)。
坏消息是这对做数据分析的人来说是很多的,因为所有的这些意味着对复杂办法实现拓展实现是没有什么需求的,但是对于储存的并行数据运用一些相同的算法在大多数情况下都非常有帮助。
当然是存在着类似于从TB级的广告数据学习全球的模型,或者对过亿用户的建议,但是有很多数据并不意味着你需要所有的数据,问题是有关于潜在学习问题的复杂性。如果这个问题可以用一个简单的模型解决,你就不需要用那么多的数据来推断模型的参数。这种情况下,采用数据的随机子集可能会有很大的帮助。正如我上面所说的,有时候正确的共您可以帮助他们减少所需要的数据点的数量。
总之知道如何正确的评价可以帮助你减少一个方法不能应用与未来数据的风险。获取正确的特征提取可能是最有效的方法来获得最好的结果。最后。并不总是大数据,分布式计算也可以帮助你
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12