京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代和数据分析需求,统计还沾边吗
大数据时代的悄然到来和计算能力爆炸式增长,让做统计分析的各类人士不禁要重新打量一下自己的技能包,看看是不是很快要被时代浪潮以大浪淘沙的方式清洗掉了。
到底大数据是怎么来的呢?可以用来干什么呢?我们就先拿2012美国总统大选来举个例子看看。比如说我们想预测在2012年11月6日,
我们可以用什么数据来做这个预测呢?最常用的就是民调数据了,通过有选择性的挑选一些可能选民来问他们的倾向。这好像是个传统统计干的事。早在1962年John Tukey就已经开始做了。
这也不难回答,我们还是可以用民调数据了,只不过要在每个州都进行抽样调查,在仔细的分析汇总一下。数据量也就比预测全国的结果时用的多几十倍而已。而且如果知道了那些州两人相差太大,一方就没有必要再大肆花钱做广告了 :)
再做更小范围,更详细的抽样调查也许可行,也就是在加上几十到几百的数据量和相应的花费吧,同时为了提高准确性我们或许还需要收集和用到更多的其他辅助数据,比如各地的人口构成,年龄构成。。。但这个问题如果回答的好的话就可以更有效的投放广告到地方市场了。
(这个数据可视化很灿,还有更酷的在这里,by Robert J. Vanderbei, Professor ofOperations Research and Financial Engineering at Princeton。看,不是统计学家做的吧。)
对这个问题的回答就比较费些劲了,这就牵扯到选战中的精细估计(micro-targeting)了。如果这个估计的可以做的准,对于摇晃选民就可以电话或上门拜访,狂轰滥炸,试图说服了。
那怎么对每个人的投票倾向有个好的估计呢?关于个人很多因素就可以粉墨登场了,比如:党派,年龄,性别,职业,婚姻情况,家庭人数,所开汽车型号,所用手机型号,等等。。。这数据量一下就上去了。再加上这些年随着社交网络的兴起,我们可以在用上个人和其他人的社交关系,朋友活动,发帖转帖等等等。。。一下子数据量级就上去了,也就可以成为大数据了。这些海量数据也让我们有机会回答以前很难想到能够回答的问题。
从这几个关心问题的转变过程中,我们可以看到与问题对应的所需数据收集和分析方法的演化。当我们关心的问题越细节,越多样化,所需要的资源和技术就越多。

问题问了一圈,这些听起来都很是十足的统计分析啊。本应该是统计分析人士应该是施展才华的时代,那为何还会有要被时代淘汰的论调呢?记得Leo Brieman 在1994年Berkeley 统计系毕业典礼上的讲话中提到的:
要知道何去何从,我们必须清楚自己真正所擅长的是什么。统计的核心是什么?需要我们是一流的数学家吗?几乎不用。那是什么呢?成为收集信息,分析信息,并得出结论的专家!这才是我们真正所擅长的。所以我认为,这正是我们统计学家应有的定位,我们的身份危机才会到解决。
在大数据的时代,我们还有资格说我们是“收集信息,分析信息,并得出结论的专家” 吗?如果我们不具备收集和处理大数据所需要的计算能力和技巧,没有数据分析的直觉和经验,如何能得出有说服力和经得起检验的结论呢?
现在讨论我们是否是一流的数学家好像已经没有很么意义。我们不妨问问自己,比起一流的计算机学家,我们还有何优势能更好的“收集信息,分析信息,并得出结论”?当我们数据收集和处理能力越来越强时,大家关心的问题的范围也越来越广,细节要求越来越高,需要的数据越来越多。这个发展趋势不广在商业,计算机信息领域天天看到,我们在科学研究,医疗制药,政府服务等各个方面的能力和雄心都在爆炸式的增长,由此带来的问题和分析需求也在爆炸。
在这形势下,我们可以考虑一下在这些牵扯大数据的问题中,统计又如何能更有效的帮助别人分析问题,得出结论。我们的曾经的神器,极限定理以及其赖以生存的测度理论,是否还有那么神奇和有用呢?与此同时我们欠缺的是什么工具呢?如果我们做的理论问题的假设与实际问题和数据的统计距离太显著,还有没有必要钻这牛角尖?如果我们不和做实际问题的一起工作,一起了解问题的细节,有怎能帮助他们呢?
从另一个角度看,我想在拥有与计算机专业的同事相差不算远的计算机技能的基础上,统计专科在数据收集方法(试验设计,抽样方法等),模型选择以及模型对outlier和模型假设的敏感度,在数据支持下对可能结论的批判型思维,以及对结论的不确定型描述等方面还是很大优势的。不过这些方面的技能好像还都不是简单的靠读理论统计课本能直接学习到或证明数学定理能解决的,它们都是在解决实际问题和数据分析的过程中通过不断犯错误来提高的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12在CDA(Certified Data Analyst)数据分析师的日常工作中,“挖掘变量间的关联关系”是高频核心需求——比如判断“用户停留时长 ...
2026-01-12在存量竞争时代,用户流失率直接影响企业的营收与市场竞争力。无论是电商、互联网服务还是金融行业,提前精准预测潜在流失用户, ...
2026-01-09在量化投资领域,多因子选股是主流的选股策略之一——其核心逻辑是通过挖掘影响股票未来收益的各类因子(如估值、成长、盈利、流 ...
2026-01-09在CDA(Certified Data Analyst)数据分析师的工作场景中,分类型变量的关联分析是高频需求——例如“用户性别与商品偏好是否相 ...
2026-01-09数据库中的历史数据,是企业运营过程中沉淀的核心资产——包含用户行为轨迹、业务交易记录、产品迭代日志、市场活动效果等多维度 ...
2026-01-08在电商行业竞争日趋激烈的当下,数据已成为驱动业务增长的核心引擎。电商公司的数据分析师,不仅是数据的“解读官”,更是业务的 ...
2026-01-08