
注意:这是本文的第二部分。你可以在这里阅读第一部分。
当产品发生变化时,人们对它的反应会有所不同。有些人习惯于产品的工作方式,不愿意改变。这被称为首要效应或改变厌恶。其他人可能会欢迎变化,一个新功能吸引他们更多地使用产品。这被称为新奇效应。然而,这两种影响都不会持续很长时间,因为人们的行为在一定时间后会稳定下来。如果a/B测试有较大或较小的初始效应,这可能是由于新的或首要效应。这是实践中常见的问题,很多面试问题都是关于这个话题的。一个面试样本问题是:
我们在一个新特性上运行了一个a/B测试,测试成功了,所以我们向所有用户启动了这个更改。然而,在推出该特性一周后,我们发现治疗效果迅速下降。怎么回事?
答案是新奇效应。随着时间的推移,随着新鲜感的消退,重复使用会减少,所以我们观察到治疗效果下降。
现在您理解了新奇和首要效应,我们如何解决潜在的问题?这是面试中典型的跟进问题。
处理这种影响的一个方法是完全排除那些影响的可能性。我们可以只对首次用户运行测试,因为新奇效应和首要效应显然不会影响这类用户。如果我们已经进行了测试,并且我们想要分析是否有新颖性或首要效应,我们可以(1)将控制组新用户的结果与治疗组的结果进行比较,以评估新颖性效应(2)将第一次用户的结果与治疗组现有用户的结果进行比较,以获得新颖性或首要效应影响的实际估计。
在A/B试验的最简单形式中,有两种变体:对照(A)和治疗(B)。有时,我们运行一个测试与多个变体,看看哪一个是最好的所有功能。当我们要测试一个按钮的多种颜色或测试不同的主页时,可能会发生这种情况。然后我们会有不止一个治疗组。在这种情况下,我们不应该简单地使用0.05的相同显著性水平来决定检验是否显著,因为我们处理的是2个以上的变异体,错误发现的概率增加。例如,如果我们有3个治疗组与对照组进行比较,观察到至少1个假阳性的机会是多少(假设我们的显著性水平是0.05)?
我们可以得到没有假阳性的概率(假设组是独立的),
PR(FP=0)=0.95*0.95*0.95=0.857
然后获得至少有1个假阳性的概率
Pr(FP>=1)=1-Pr(FP=0)=0.143
只有3个治疗组(4个变异),假阳性(或I型错误)的概率超过14%。这称为“多重测试”问题。一个面试问题是
我们正在运行一个测试与10个变体,尝试我们的登陆页面的不同版本。1个处理获胜,P值小于0.05。你能改变吗?
答案是否定的,因为多重测试问题。有几种方法来接近它。一种常用的方法是Bonferroni校正。它将显著性水平0.05除以试验次数。对于面试问题,既然我们测量了10个测试,那么测试的显著性水平应该是0.05除以10等于0.005。基本上,只有当检验的p值小于0.005时,我们才声称检验是显著的。Bonferroni校正的缺点是它往往过于保守。
另一种方法是控制错误发现率(FDR):
fdr=e[#假阳性/#拒绝]
它度量了所有对零假设的拒绝,即所有你声明有统计上显著差异的度量。他们中有多少人有真正的差异,而有多少人是假阳性。只有当您有大量的度量,比如数百个时,这才有意义。假设我们有200个指标,并将FDR上限设为0.05。这意味着我们可以看到5次假阳性。我们每次都会在那200个指标中观察到至少10个假阳性。
理想情况下,我们看到了实际的显著治疗结果,我们可以考虑向所有用户推出该功能。但有时,我们会看到相互矛盾的结果,例如一个指标上升而另一个下降,因此我们需要做出输赢的权衡。一个面试样本问题是:
运行测试后,您会看到所需的指标,例如点击率在上升,而印象数在下降。你会怎么做决定?
在现实中,产品推出决策可能涉及到很多因素,如实施的复杂性、项目管理的努力、客户支持成本、维护成本、机会成本等。
在采访中,我们可以提供解决方案的简化版本,重点放在实验的当前目标上。它是为了最大限度地参与,保留,收入,还是其他什么?此外,我们希望量化负面影响,即非目标度量中的负面变化,以帮助我们做出决定。例如,如果收入是目标,我们可以选择它,而不是最大限度地参与,假设负面影响是可以接受的。
最后,我想向您推荐两个参考资料,让您更多地了解A/B测试。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28