大数据分析的道与术：数据分析常犯的6类错误-CDA数据分析师官网

热线电话：13121318867

大数据分析的道与术：数据分析常犯的6类错误

2016-06-29

大数据分析的道与术：数据分析常犯的6类错误

夏天雪糕销量越好，游泳溺水的事件也越多，是不是雪糕中某种成分对人影响的后果呢？简单的思考后就会发现，是因为气温越高，雪糕销量会越高，同时温度越高，去河里游泳的孩子就越多，溺水事件也就越多，雪糕销量和溺水是关联关系，而并非因果关系。

上面的例子很简单，也很容易被识破，但在实际的数据分析中，关联和因果并不是那么容易区分。再举一例：

某广告公司分析人员发现：每月广告投入越高的用户，越不容易流失，而广告投入低的用户群则很容易流失，从而得出结论：“高投入会降低客户流失率，建议销售引导客户提高首月广告投入，从而降低新客流失率”。而实际情况是，新客户初期的投入常常都比较少，看广告有了效果之后，才会逐步扩大广告投放预算，投入高的客户流失率低是因为认可广告投放效果，而不是因为花的钱多。

关联性很容易判断，如何判断是否是因果关系呢？因果符合下面的特征：

1.两个事件是关联的，就是说总是同时出现

2.原因在前，结果在后

3.原因消除的话，结果也消除

因果关系需要设计相对严谨的对照来证明，更多的时候需要靠经验来判断，这时候更注意要谨慎下结论。

2. 不匹配的比较例：美国与西班牙战争爆发后，不少美国人不愿意参军，坦诚是因为怕死，针对这种情况，美国军方做了一份统计报告来劝说大家参军：“可靠数据统计，美国海军的死亡率是 0.9%，而同期纽约市民的死亡率是 1.6%”，潜台词非常明显，如果惧怕死亡更应该参军，因为在军营中比呆在纽约更安全。这个例子乍看起来很有道理，如果你仔细琢磨，就会发现其中的阴谋：比较的对象不一样！如果仔细查阅，就会发现，美国海军死亡名单基本都是健康的青年小伙，而纽约市民的死亡名单大多是老弱病残，这两份数据放在一起显然不合适。

在做数据比较的时候，需要选取合适的比较对象，以便更准确地认知和发现结论，在数据分析中，一般选取的比较对象有以下几类：

自身历史

与历史同期相比，比如去年同期或上个季度。

同行竞品

合理预期

与之前产品发展的预期相比，比如：A 产品的研发，比预期收入提高 10%

同质对照组

A/B Test 结果的对比

3. 基于个案的认知每当劝说朋友戒烟时，朋友总会拿出这个段子：

不抽烟不喝酒，63岁–林彪

不抽烟只喝酒，73岁–周恩来

只抽烟不喝酒，83岁–毛泽东

既抽烟又喝酒，93岁–邓小平

吃喝嫖赌样样有，103岁–张学良没有任何坏习惯，一生做好事–23岁，雷锋

无论抽不抽烟，一个人都可能在各个年龄下死亡，从宏观的统计上分析，抽烟的人的寿命平均比不抽烟的人小 5 岁，而上面举出的个例，则无法说明问题

4. 精挑细选的数据维度例：一所艺术院校，男生校服只有裤子款式，而女生有裤子和裙子两种款式，经统计得知 75% 的女生选择裙子，25% 的女生选择裤子，今天你进入校园，远远看到一个穿裤子的同学，他是男生的概率更高，还是女生的概率更高？凭感觉得到的答案是男生概率高，因为所有的男生都穿裤子款式，而只有 25% 的女生选择裤子款式。这个例子中忽略了一个重要的数据：男生和女生的人数。

如果告诉你，该学校共 1000 人， 900 人是女生，100 人是男生，结果是什么？

女生选裤子的有 900*25% = 225 人

男生选裤子的有 100 人

很显然，这种情况下，这个人是女性的概率更高。在普通人看来，往往会有男女各占一半的经验误解。所以，在一些情况下，隐藏了部分数据就是说谎。

5. 过多脑补的推理在一个冬日的晚上，产品流量出现下跌，经过一番分析，得出原因：天气太冷，网民因为手冷而不愿意上网，提前上床睡觉，所以流量下跌。在一个冬日的晚上，产品流量出现上涨，经过一番分析，得出原因：天气太冷，网民愿意出门，只好在家窝着上网，所以流量上涨。该案例背后的信息是：一个结果可能有多个原因可以解释，“大忽悠”往往引导人们只去相信其中的一个，整个推理过程没有对应的细节数据辅助。