京公网安备 11010802034615号
经营许可证编号:京B2-20210330
假设检验是统计学中的一种推断方法,用来判断两个样本或总体间的差异是由于抽样误差引起的还是本质差别造成的。R语言中提供了很多假设检验函数,如F检验,t检验和卡方检验等等。本篇文章介绍如何使用R语言中的这些函数进行假设检验。
二项分布检验
假设一个广告的点击率为0.02,更换新的广告创意后1000次曝光获得了23次点击,新广告在点击率上是否明显优于老广告?
H0:新广告与老广告效果无差异
H1:新广告效果优于老广告
#老广告点击率0.02,新广告1000次广告曝光获得23次点击是否明显优于老广告
binom.test(x =23,n = 1000,p = 0.02,alternative = "greater",conf.level = 0.95 )
p-value = 0.2778>0.05,在0.95的置信区间下接受原假设H0。新广告与老广告在点击率上没有显著差异。
#1000次访问0.02点击率下差异显著的临界值
qbinom(p = 0.95,size = 1000,prob = 0.02)
[1] 28
新广告在1000次广告曝光中点击量需要提升到28次以上才能明显优于老广告的效果。
泊松分布检验
假设一次市场推广活动中前一个小时有50人注册,后一个小时有60人注册,后一小时的注册人数是否明显高于前一小时?
H0:前一小时与后一小时注册人数无差异
H1:后一小时注册用户数量高于前一小时
#上一小时50人注册,下一小时60人注册,后一小时是否显著高于前一小时
poisson.test(x = 60,T = 50,alternative = "greater",conf.level = 0.95)
p-value = 0.09227>0.05,在0.95的置信区间下接受原假设H0,后一小时注册人数与前一小时无差异。
#将过去一周咨询用户数量赋给X
X=c(229,164,121,137,155,127,143)
#计算过去一周咨询量的均值
mean(X)
[1] 153.7143
#过去一周咨询用户数量是否达到目标
t.test(X,alternative = "greater",mu=153,conf.level = 0.95)
[1] 62
后一小时的注册用户数需要提升到62以上才能明显高于前一小时的注册用户数。
单样本t检验
假设某流量渠道的目标是每日带来150个咨询,在过去的一周带来的咨询用户数量分别为229,164,121,137,145,127,123,我们是否能认为该渠道已经达到目标,即每日的平均咨询量大于150?
这里使用单样本t检验,首先建立假设。
H0:每日平均咨询量不大于153,未达到目标。
H1:每日平均咨询量大于153,达到目标。
#将过去一周咨询用户数量赋给X
X=c(229,164,121,137,155,127,143)
#计算过去一周咨询量的均值
mean(X)
[1] 153.7143
#过去一周咨询用户数量是否达到目标
t.test(X,alternative = "greater",mu=153,conf.level = 0.95)
p-value = 0.4801>0.05,在0.95的置信区间下接受原假设H0,流量渠道的咨询量没有达到目标。
双样本t检验
假设两个流量渠道在过去的一周分布为网站带来咨询用户,这两个流量渠道带来的咨询用户数量是否有显著差异?
这里使用双样本t检验,首先建立假设。
H0:两个流量渠道带来的咨询用户数量没有显著差异。
H1:两个流量渠道带来的咨询用户数量存在有显著差异。
#流量渠道1带来的咨询用户数量赋值给X
X=c(229,164,121,137,155,127,143)
#流量渠道2带来的咨询用户数量赋值给Y
Y=c(175,120,187,144,117,184,135)
进行双样本t检验之前先进行方差检验,确定两组样本方差是否相同。 H0:两个总体方差相同 H1:两个总体方差不同
#等方差t检验,两个流量渠道带来的咨询用户数量是否有差异
t.test(X,Y,var.equal=TRUE,alternative = "two.sided")
p-value = 0.6469>0.05,在0.95的置信区间下接受原假设H0,两个总体方差相同。进行等方差t检验。
#等方差t检验,两个流量渠道带来的咨询用户数量是否有差异
t.test(X,Y,var.equal=TRUE,alternative = "two.sided")
p-value = 0.9125>0.05,接受原假设H0,在0.95的置信区间下两个流量渠道的咨询用户量没有显著差异。
成对样本t检验
假设网站对咨询流程进行了优化并进行了测试,那么改版后的效果是否明显优于改版前?
这里使用成对t检验,首先建立假设。
H0:改版后的效果与改版前无差异
H1:改版后的效果明显优于改版前
#改版前注册用户量赋给before
before=c(229,164,121,137,155,127,143)
#改版后注册用户量赋给after
after=c(217,284,155,190,158,170,180)
#改版前的咨询量是否小于改版后的咨询量
t.test(before-after,alternative = "less",conf.level = 0.95)
p-value = 0.02362<0.05,拒绝原假设H0,接受备择假设H1。在0.95的置信区间下改版后的效果明显优于改版前。
卡方检验
假设广告创意A1315次访问,65次转化,转化率4.94%,广告创意B939次访问,54次转化,转化率5.75%。广告创意B的效果是否优于广告创意A?数据分析师培训
这里使用卡方检验,首先建立假设。
H0:两个广告创意的效果无差异
H1:广告创意B的效果优于广告创意A
对源数据近整理,广告创意A1250次未购买,65次购买,广告创意B885次未购买,54次购买。以此建立列联表。
#创建列联表
X=c(1250,885,65,54)
dim(X)=c(2,2)
X
#使用卡方检验
chisq.test(X,correct = FALSE)
p-value = 0.3978>0.05,在0.95的置信区间下接受原假设H0,两个广告创意效果没有显著差异。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16