用 PHP 使 Web 数据分析进入更高境界(四)-CDA数据分析师官网

热线电话：13121318867

用 PHP 使 Web 数据分析进入更高境界(四)

2015-06-11

假定过一段时间后，您打算对新斯科舍省的啤酒消费者进行另一次 Web 民意测验。您再次询问他们喜爱的啤酒品牌，现在观察到下列结果：表 4. 新的啤酒民意测验 Keiths Olands Schooner 其它 385 (27.50%) 350 (25.00%) 315 (22.50%) 350 (25.00%) 旧的数据如下所示：表 1. 旧的啤酒民意测验（再一次显示） Keiths Olands Schooner 其它 285 (28.50%) 250 (25.00%) 215 (21.50%) 250 (25.00%) 民意测验结果之间的明显区别在于，第一次民意测验有 1,000 个调查对象，而第二次有 1,400 个调查对象。这些额外调查对象的主要影响是，使得每个回答情形的频率计数增加了 100 点。

当准备好对新的民意测验进行分析时，可以利用缺省的方法 ― 计算期望频率来分析数据，也可以利用每个结果的期望概率（基于前一次民意测验所观察到的比例）来初始化分析。在第二种情形中，您将以前获得的比例装入期望概率数组（$ExpProb），并使用它们来计算每个回答选项的期望频率值。清单 6 显示了用于检测偏好变化的啤酒民意测验分析代码：清单 6. 检测偏好的变化 <?php // beer_repoll_analysis.php require_once "../init.php"; require PHP_MATH . "chi/ChiSquare1D_HTML.php"; $Headings = array("Keiths", "Olands", "Schooner", "Other"); $ObsFreq = array(385, 350, 315, 350); $Alpha = 0.05; $ExpProb = array(.285, .250, .215, .250); $Chi = new ChiSquare1D_HTML($ObsFreq, $Alpha, $ExpProb); $Chi->showTableSummary($Headings); echo "<br><br>"; $Chi->showChiSquareStats(); ?> 表 5 和 6 显示了 beer_repoll_analysis.php 脚本生成的 HTML 输出：表 5. 运行 beer_repoll_analysis.php 而获得的期望频率和方差 Keiths Olands Schooner 其它合计观察值 385 350 315 350 1400 期望值 399 350 301 350 1400 方差 0.49 0.00 0.65 0.00 1.14 表 6. 运行 beer_repoll_analysis.php 所获得的各种 X 平方分布统计信息统计 DF 获得值概率临界值 X 平方分布 3 1.14 0.77 7.81 表 6 表明，在虚假设条件下，获得 X 平方分布值 1.14 的概率是 77％。我们不能排除这样的虚假设，即自从上一次民意测验以来，新斯科舍省啤酒消费者偏好已经发生了变化。观察频率和期望频率之间的任何差异都可以解释为新斯科舍省相同啤酒消费者的期望抽样可变性。考虑到最初民意测验结果的转换只是通过向前面每个民意测验结果添加常数 100 完成的，那么这种零发现也不应当有什么令人吃惊的地方了。

但是，您可以设想结果已经发生了变化，并且设想这些结果可能暗示着另一种品牌的啤酒正在变得更加流行（请注意表 5 中每列底部报告的方差大小）。您可以进一步设想这一发现对所讨论的酿酒厂的财务方面有显著的含义，因为酒吧老板往往会采购酒吧里最畅销的啤酒。这些结果将受到酿酒厂老板极其详细的检查，他们会对分析过程和实验方法的适合性提出疑问；特别地，他们会对样本的代表性提出疑问。如果您打算进行一次 Web 实验，该实验可能具有重要的实际含义，那么，对于用来收集数据的实验方法和用来从数据得出推论的分析技术，您需要给予同等的关注。

因此，本文不仅为您奠定了一个良好的基础，以便于可以加强您对 Web 数据的有效理解，它还提供了一些建议，这些建议是有关如何保护您的统计检验选择的，并且使得从数据获得的结论更具合理性。应用学到的知识在本文中，您已经了解了如何将推论统计学应用于普遍存在的用于汇总 Web 数据流的频率数据，侧重于 Web 民意测验数据的分析。

但是，所讨论的简单的单向 X 平方分布分析过程也能够有效地应用于其它类型的数据流（访问日志、调查结果、客户概要信息和客户订单），以便将原始数据转换成有用的知识。在将推论统计学应用于 Web 数据时，我还介绍了希望将数据流视作 Web 实验的结果，以便于在作推论时提高引用实验设计考虑事项的可能性。通常由于您对于数据采集的过程缺乏足够的控制，因此您不能做出推论。

但是，如果在将实验的设计原则应用于 Web 数据收集过程时您更加主动（例如，在您的 Web 民意测验过程中随机选择投票者），那么可以改变这种情形。

最后，我演示了如何模拟不同自由度的 X 平方分布的抽样分布，而不只是仅说明其来源。在这样做的过程中，对于测量类别的期望频率小于 5（换而言之，即小 N 实验）― 我还演示了一种变通方法（使用小 $NTrials 值模拟实验的抽样分布）来禁止使用 X 平方分布检验。

因此，我不只是使用研究过程中的 df 来计算样本结果的概率，对于数量较小的尝试，可能还需要使用 $NTrials 值作为参数来求得所观察 X 平方分布结果的概率。

考虑您可能会如何分析小 N 实验是值得的，因为您通常可能希望在数据采集完成之前分析您的数据 ― 当每次观察的代价都很昂贵时，当观察需要花费很长时间才能获得时，或者只是因为您很好奇。在尝试这一级别的 Web 数据分析时，最好谨记下面这两个问题： *您是否有理由在小 N 条件下进行推论？ *模拟有助于您决定在这些环境下获得什么推论吗？

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；