京公网安备 11010802034615号
经营许可证编号:京B2-20210330
用 PHP 使 Web 数据分析进入更高境界
设计您的数据分析,做比简单原始计数更多的事 对 Web 数据进行有效和多层次的分析是许多面向 Web 企业能够生存的关键因素,数据分析检验的设计(和决策)通常是系统管理员和内部应用程序设计人员的工作,而他们可能除了能够把原始计数制成表格之外,对统计学没有更多的了解。在本文中,Paul Meagher 向 Web 开发人员传授了将推论统计学应用到 Web 数据流所需的技能和概念。 动态网站不断生成大量的数据 ― 访问日志、民意测验和调查结果、客户概要信息、订单及其它,Web 开发人员的工作不仅是创建生成这些数据的应用程序,而且还要开发使这些数据流有意义的应用程序和方法。 通常,对于由管理站点所产生的不断增长的数据分析需求,Web 开发人员的应对是不够的。
一般而言,除了报告各种描述性统计信息之外,Web 开发人员并没有其它更好的方法来反映数据流特征。有许多推论统计步骤(根据样本数据估计总体参数的方法)可以被充分利用,但目前却没有应用它们。 例如,Web 访问统计信息(按当前所编辑的)只不过是以各种方式进行分组的频率计数。以原始计数和百分比表示民意测验和调查结果的情况比比皆是。 开发人员用比较浅显的方法处理数据流的统计分析或许已经足够了,我们不应期望太多。毕竟,有从事较复杂的数据流分析的专业人士;他们是统计师和受过训练的分析师。当组织需要的不仅仅是描述性统计时,可以请他们加入。
但另一种应对是承认对推论统计学日益加深的了解正成为 Web 开发人员工作描述的一部分。动态站点正在生成越来越多的数据,事实表明,设法将这些数据变成有用的知识正是 Web 开发人员和系统管理员的责任。 我提倡采取后一种应对;本文旨在帮助 Web 开发人员和系统管理员学习(或重温,如果知识已遗忘的话)将推论统计学应用到 Web 数据流所需的设计和分析技能。 使 Web 数据与实验设计相关 将推论统计学应用到 Web 数据流需要的不仅仅是学习作为各种统计检验基础的数学知识。
将数据收集过程与实验设计中的关键差别关联起来的能力同样很重要:测量尺度是什么?样本的代表性如何?总体是什么?正在检验的假设是什么? 要将推论统计学应用到 Web 数据流,需要先把结果看作是由实验设计生成的;然后选择适用于该实验设计的分析过程。即使您可能认为将 Web 民意测验和访问日志数据看作实验的结果是多此一举,但这样做确实很重要。为什么? 1.这将帮助您选择适当的统计检验方法。 2.这将帮助您从收集的数据中得出适当的结论。 在确定要使用哪些适当的统计检验时,实验设计的一个重要方面是选择数据收集的衡量尺度。 衡量标准的示例 测量尺度只是指定了一个对所感兴趣的现象分配符号、字母或数字的步骤。
例如,千克尺度允许您给一个物体分配数字,根据测量仪器的标准化的偏移量指示该物体的重量。 有四种重要的衡量标准: 定比尺度(ratio)― 千克尺度是定比尺度的一个示例 ? 分配给物体属性的符号具有数字意义。您可以对这些符号执行各种运算(如计算比率),而对于通过使用功能不那么强大的衡量标准获得的数值,您不能使用这些运算。 定距尺度(interval)― 在定距尺度中,任意两个相邻测量单位之间的距离(也称为间距)是相等的,但零点是任意的。定距尺度的示例包括对经度和潮汐高度的度量,以及不同年份始末的度量。定距尺度的值可以加减,但乘除则没有意义。 定序尺度(rank)― 定序尺度可应用于一组有顺序的数据,有顺序指的是属于该尺度的值和观察值可以按顺序排列或附带有评级尺度。常见的示例包括“好恶”民意测验,其中将数字分配给各个属性(从 1 = 非常厌恶到 5 = 非常喜欢)。
通常,一组有序数据的类别有自然的顺序,但尺度上相邻点之间的差距不必总是相同的。对于有顺序的数据,您可以计数和排序,但不能测量。 定类尺度(nominal)― 衡量标准的定类尺度是衡量标准中最弱的一种形式,主要指将项目分配给组或类别。这种测量不带数量信息,并且不表示对项目进行排序。对定类尺度数据执行的主要数值运算是每一类别中项目的频率计数。 下表对比了每种衡量标准的特征: 衡量标准尺度 属性具有绝对的数字含义吗? 能执行大多数数学运算吗? 定比尺度 是。 是。 定距尺度 对于定距尺度是这样;零点是任意的。 加和减。 定序尺度 不是。 计数和排序。 定类尺度 不是。 只能计数。 在本文中,我将主要讨论通过使用测量的定类尺度收集的数据,以及适用于定类数据的推论技术。
使用定类尺度 几乎所有 Web 用户 ― 设计人员、客户和系统管理员 ― 都熟悉定类尺度。Web 民意测验和访问日志类似,因为它们常常使用定类尺度作为衡量标准。在 Web 民意测验中,用户常常通过请求人们选择回答选项(如“您偏爱品牌 A、品牌 B,还是品牌 C?”)来衡量人们的偏好。通过对各类回答的频率进行计数来汇总数据。 类似的,测量网站流量的常用方法是对一个星期内一天之中的每次点击或访问都划分给这一天,然后对每一天出现的点击或访问的数目计数。另外,您可以(也确实可以)通过浏览器类型、操作系统类型和访问者所在的国家或地区 ― 以及任何您想得到的分类尺度 ― 对点击计数。 因为 Web 民意测验和访问统计信息都需要对数据归入某一特定性质类别的次数进行计数,所以可以用相似的无参数统计检验(允许您根据分布形状而不是总体参数作出推论的检验)来分析它们。 David Sheskin 在他的 Handbook of Parametric and Non-Parametric Statistical Procedures 一书(第 19 页, 1997)中,是这样区分参数检验和非参数检验的: 本书中将过程分类为参数检验和非参数检验所使用的区别主要基于被分析数据所代表的测量级别。
作为通用规则,评估类别/定类尺度数据和顺序/等级-顺序数据的推论统计检验被归类为非参数检验,而那些评估定距尺度数据或定比尺度数据的检验则被归类为参数检验。 当作为参数检验基础的某些假设值得怀疑时,非参数检验也很有用;当不满足参数假设时,非参数检验在检测总体差异时有很大的作用。对于 Web 民意测验的示例,我使用了非参数分析过程,因为 Web 民意测验通常使用定类尺度来记录投票者的偏好。 我并不是在建议 Web 民意测验和 Web 访问统计信息应该始终使用定类尺度衡量标准,或者说非参数统计检验是唯一可用于分析这类数据的方法。不难设想有(譬如)这样的民意测验和调查,它们要求用户对每个选项提供数值评分(从 1 到 100),对此,参数性的统计检验就比较合适。 尽管如此,许多 Web 数据流包括编辑类别计数数据,而且通过定义定距尺度(譬如从 17 到 21)并将每个数据点分配给一个定距尺度(如“年轻人”),可以将这些数据(通过使用功能更强大的衡量标准测量)变成定类尺度数据。频率数据的普遍存在(已经是 Web 开发人员经验的一部分),使得专注于非参数统计学成为学习如何将推论技术应用到数据流的良好起点。 为了使本文保持合理的篇幅,我将把对 Web 数据流分析的讨论局限于 Web 民意测验。但是请记住,许多 Web 数据流都可以用定类计数数据表示,而我讨论的推论技术将使您能做比报告简单的计数数据更多的事情。 从抽样开始 假设您在您的站点...
上进行每周一次的民意测验,询问成员对各种主题的意见。您已经创建了一个民意测验,询问成员喜爱的啤酒品牌(在加拿大新斯科舍省(Nova Scotia)有三种知名的啤酒品牌:Keiths、Olands 和 Schooner)。为了使调查尽可能范围广泛,您在回答中包括“其它”。 您收到 1,000 条回答,请观察到表 1 中的结果。(本文显示的结果只作为演示之用,并不基于任何实际调查。) 表 1. 啤酒民意测验Keiths Olands Schooner 其它 285(28.50%) 250(25.00%) 215(21.50%) 250(25.00%) 这些数据看上去支持这样的结论:Keiths 是最受新斯科舍省居民欢迎的品牌。根据这些数字,您能得出这一结论吗?
换句话说,您能根据从样本获得的结果对新斯科舍省的啤酒消费者总体作出推论吗? 许多与样本收集方式有关的因素会使相对受欢迎程度的推论不正确。可能样本中包含了过多 Keiths 酿酒厂的雇员;可能您没有完全预防一个人投多次票的情况,而这个人可能使结果出现偏差;或许被挑选出来投票的人与没有被挑选出来投票的人不同;或许上网的投票人与不上网的投票人不同。 大多数 Web 民意测验都存在这些解释上的困难。当您试图从样本统计数据得出有关总体参数的结论时,就会出现这些解释上的困难。
从实验设计观点看,在收集数据之前首先要问的一个问题是:能否采取步骤帮助确保样本能够代表所研究的总体
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27