关于数据的两个误区_数据分析师-CDA数据分析师官网

热线电话：13121318867

关于数据的两个误区_数据分析师

2014-11-27

关于数据的两个误区_数据分析师

平时无论是进行用户调研、产品运营还是竞品分析，都少不了对于数据的分析，如果项目中出现某些分歧谁也无法说服谁时，很多时候也都是拿数据说话，可见在开发产品的时候，对数据的统计与分析十分重要。大家都说数据是客观的，但其实数据受背景环境、统计者、统计方法、分析者看法等多重因素影响，以致我们在统计和分析时却常常陷入误区，得不到正确的答案。下面简单说一下关于数据的两个常见误区。
误区一：把某一类型数据当做全部数据导致分析结果错误
先说个小故事：二战时英国空军希望增加飞机的装甲厚度，但如果全部装甲加厚则会降低灵活性，所以最终决定只增加受攻击最多部位的装甲。后来工作人员经过对中弹飞机的统计，发现大部分飞机的机翼弹孔较多，所以决定增加机翼的装甲厚度。后来一个专家说：“可是机头中弹的那些飞机就没有飞回来”。
这个故事里本应是对全部飞机进行分析，但统计样本没有包含已经损毁的飞机，所以得出的结论只是根据部分数据，或者说是根据具有同样特征（受伤）的某一类数据推论出的，并不能代表全部类型的数据，所以得出的结果很可能是错误的。
再看一个例子：前一阵我为了分析人人网，想看看人人网现在的用户访问量是什么状态，于是选择了PV作为观测指标，通过alexa来看人人网的PV在过去一年中呈明显的下降态势，这也印证了我的预期，于是就以此为论据进行了分析。可是后来发现，alexa仅仅统计通过WEB的访问量，而用户移动端的登录并不在统计范围之内！这两年智能手机普及迅速，移动端登录也非常普遍，缺失这部分数据意味着前面统计的数据基本没有意义，因为WEB端访问量的下降有可能是用户访问人人网次数降低，同时也有可能是由PC端向移动端迁移，这个统计就不能作为论据出现了。
从上面这个例子可以看到，我只统计了WEB端的访问情况，认为这就是人人网全部访问量，而忽略了移动端，从而推出了错误的结果。另一个问题就是由于我已经有预期（人人网访问量下降），那么我在为这个结论找寻相关的论据，当找到符合我结论的论据时很容易不去做更多判断就选择有利于自己的数据，这也是数据统计人员常见的问题。
用某一类型数据代替全部数据会误导我们做出错误的判断，在统计时一定要注意这点。这一方面需要意识，在统计、分析数据时要时刻想着还有没有其他的情况，还有没有我们没有想到的数据类型，这些数据是不是能代表全部类型，尝试站在更高的角度去解读这些数据，而不是拿到数据后立刻就盲目分析。另一方面需要知识的累积，比如你知道alexa是如何进行统计的，那么很轻易就会想到还要考虑移动端的情况。知识的累积有助于我们做出准确的判断，这些知识与经验都是从阅读或实践中得来的，平时多做，慢慢累积，时间久了自然会看得更全面。
误区二：鲜明事件让我们夸大了偶然因素
鲜明的事件更容易占据我们的视线，从而让我们高估事件发生的概率。
比如从年度统计中看到，某基金近两年的收益率达到100%，有某某明星操盘手等等，人们就会争相去购买该基金，同时也会让人们认为买基金就是可以赚钱的。而实际上，绝少有基金可以常年保持这样的收益率，近两年收益前五名的基金很可能在五年后收益率就排行倒数，而世面上大部分基金也无法跑赢大盘，不过人们在记忆中依然会认为买基金确实很赚钱，当年XXX两年益100%呢。两年收益达到100%只是偶然情况，但却由于事件太过鲜明而长久驻扎在人们的心智中。
类似的事还有很多。比如富士康N连跳，大家都觉得这么多人跳楼，富士康肯定太黑暗了，但大家却没有注意2010年深圳地区富士康员工大概有37万人，2010年已知的富士康深圳地区自杀人数为14人，这样的话话自杀率不到十万分之四，而2010年全国的平均自杀率为十万分之二十二（根据维基百科），N连跳自杀率远低于全国自杀率，可见富士康N连跳实际上是一个社会问题，而不仅仅是一个企业的问题，富士康当然有自己的各种问题，我举这个例子只是说明我们太过注重鲜明的事实却忽略了背后整体的概率。还有前两天美国波士顿爆炸案死亡3人，微博上各种祈福，可是阿富汗、伊拉克等国家几乎每天都面临着这些问题，只是由于媒体不会整天报道那里的消息，而天天出现的袭击也麻痹了人们的神经，所以我们只会关注鲜明的波士顿爆炸，而对其他地区天天发生的事情无动于衷。另外比如你周围有人买股票赚了好多钱，可能你也会很想投身股市一试运气，而忽略了散户8赔1平1赚的整体概率。你看到了各种创业成功者的报道，认为自己也可以尝试创业，毕竟成功概率好像也不低。但你不知道那些不成功的人基本没有被报道的机会，而实际上创业成功的人可能不到1%。
说了这么多，其实就是太过鲜明的偶然事件会让我们忽略背后一直存在的整体概率。看到这种数据的时候，不要太过情绪化，你所看到的数据或事件可能只是个例，并不能代表大多数，可以去查查历史情况或平均情况，去找找沉默的用户或数据，切忌轻易就做出判断和决定。要理性看待这些偶然事件，既不盲目跟随，也不对此嗤之以鼻，在明确整体概率的情况下，剔除偶然因素,分析这些偶然事件背后是否存在着某些值得借鉴的地方，从而吸收到自己产品或项目中，以便使自己的产品或要处理的事情有可能成为市场中下一个“偶然事件”。CDA数据分析师培训官网

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据分析特征

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇随机森林 vs XGBoost vs 决策树：算法选择中的

下一篇图论在大数据分析中的作用！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

关于数据的两个误区_数据分析师

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

关于数据的两个误区​_数据分析师

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

关于数据的两个误区_数据分析师