游戏数据分析应避免‘辛普森悖论’_数据分析师-CDA数据分析师官网

游戏数据分析应避免‘辛普森悖论’_数据分析师

“辛普森悖论”（Simpson’s paradox）指的是在人们尝试探究两种变量是否具有相关性的研究中，在某些前提下有时会产生的一种现象。也就是说，该理论认为在分组比较中都占优势的一方，会在总评中反而是失势的一方。辛普森悖论主要是由于一些所谓“复杂变量”的影响，其弊端是没有对各个元素进行细化分析。

比如说，如果一个移动应用的用户组成是1万人用Android设备、5000人使用iOS设备，那么整体的付费转化率应该是5%，其中iOS设备的转化率为4%，而Android设备则是5.5%。如果在同等货币化效率的前提下，（也就是说Android用户和iOS用户消费一样多），一个资源渠道有限的产品经理就可能会根据这个数据做出很夸张的决定，或许会有限选择Android平台研发，甚至会取消iOS研发。

然而，当把这个数据分开来看，就会出现不同的结果：

我们都知道iOS平板的付费转化率比Android平板高出很多，而且iOS智能机的转化率也相对更好。了解了这些，产品经理或许会对未来的产品决策进行重新衡量。这种情况下，设备类型就是复杂变量：如果数据是根据设备类型得到，那么其他的数据就可能被完全忽略。在具体设备方面，iOS的付费转化率可以完全击败Android，但在整体上却低于Android的主要原因是，两个平台的设备类型表现不同：平板的转化率高于智能机，总体上来讲，iOS设备的转化率低于Android总体设备的转化率，尽管Android平板的转化率更低。

iOS和Android整体付费转化率（上）和具体设备转换率（下）比较的结果差异

造成这样差别的原因如下:http://cda.pinggu.org/

用户量：免费产品需要很大的用户量才能获得足够的总收入，因为该模式的转化率极低。而这些用户通常来自全球各个地区，使用各种不同类型的设备。针对不同的设备类型采用通用的平均值是没有意义的。

LTV范围：免费产品需要很长的货币化周期，把用户消费当作玩家是否开心的依据，就像参与度和消费紧密相关一样，因此可以作为分类的标准。

大多数的用户是不会付费的。免费产品的综合付费转化率比较低是因为把付费玩家和非付费玩家综合到了一起，所以任何对免费用户的衡量都是非常低的。因为大多数的用户是不付费的，所以ARPU以及ARPPU相差很多。

避免辛普森悖论的关键是要对反映两种不同用户之间的事实进行参考。用户划分在数据分析中是非常重要的，尤其是在免费产品当中，平均用户不仅不存在，而且是误导研发的因素之一。在一个具体的产品中，普世型的数据是没有多大参考意义的。

但用户分类并不只是在考虑产品研发路线的时候重要，如果一个游戏功能优先考虑最有价值和参与度最高当用户，因此这样的结论不仅是错误的，还会带来很多错误的用户。因此在产品做决策的时候需要考虑以下几点：定位（国家和地区）；设备（平台、设备类型）；获取渠道；用户早期行为（比如货币化或者参与度数据）；进入游戏时间（控制季节性因素）。对于一些获取渠道来说，比如Facebook，其他数据也可以进行参考，比如年龄、性别等等。

和简单的把iOS与Android的比较数据相比，参考了这些因素的数据分析更加可靠。根本上来说，数据分析是为了提高用户使用的产品，如果分析采取的数据是错误的，那么真正的用户群是不会买账的。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；