京公网安备 11010802034615号
经营许可证编号:京B2-20210330
基础准备
两样本推断性统计基础:两样本估计和假设检验基础。
通过对比单样本估计和假设检验的学习,可以列出独立两样本均值差的估计和假设检验在不同情况的置信区间公式,有以下总结:
两样本的t分布
t分布在单样本估计和假设检验要求:正态总体,可以使用t分布进行两样本估计和假设检验;两样本估计和假设检验要求:除了正态总体外,还要假设两总体方差相等(方差齐性)才能使用t分布,原因是两总体方差相等,才能得到自由度为n1+n2-2的均值差抽样分布的方差,推导公式如下:
参照上表,标准差已知的正态分布总体均值差抽样分布为正态分布,可以得到独立样本均值差的置信区间,置信区间公式推导过程如下:
范例1:一位森林学家想知道还把高度对红杉树高度的影响。他测量了海平面上100棵成树的高度(总体1,标准差已知为30英尺),高度均值为320英尺;海拔3000英尺的73棵成树的高度(总体2,标准差已知为45英尺),高度均值为255英尺;问:两总体均值差的95%置信区间是多少?
解:不同海拔的红杉树的高度可以认为是正态分布的,总体方差已知,而且不同海拔的红杉树是独立样本,可以直接用上面置信区间公式计算,过程如下:
和单样本假设检验一样(单样本的假设检验),两样本假设检验问题也有一对统计假设:零假设和对立假设;同样也存在两侧和单侧假设检验,而且单侧假设检验又分为右侧检验和左侧检验。两样本假设检验中,一般把零假设为两均值差为0,对立假设根据题意选择双侧假设或是单侧假设;两样本假设检验的步骤和单样本假设检验一样。
从上表可知:标准差已知的正态总体均值差的抽样分布为正态分布,进行标准正态变换后可以假设检验,过程见下方范例。
范例2:独立随机样本取自均值未知,标准差已知的两个正态分布总体,第一个总体,标准差为0.73,样本容量为25,样本均值为7.3;第二个总体,标准差为0.89,样本容量为20,样本均值为6.7;在显著水平为0.01下作两总体均值差等于0的右尾检验。
均值差的置信区间:标准差未知,但假定相等的正态分布总体的独立小样本(小于30)
如上表所示,标准差未知,但假定相等的正态分布总体小样本,均值差的抽样分布符合t分布,可用表中置信区间计算公式,计算过程见范例。
范例3:为研究睡眠对记忆力的影响,一位心理学家在两种条件下对人群进行试验,内容是有关北极野外生活的纪实电影的细节回忆,这两种条件是:(1)电影在早上7点反映,被测人晚上睡眠正常,第二天晚上给他们50个有关电影的多项选择题;(2)电影早7点反映,被测人白天情况如常,未睡觉,同一天晚上7点给他们50个问题,样本是独立的,每组为15人,结果为:第1组,均值为37.2个正确,方差为3.33;第2组,均值为35.6个正确,方差为3.24。假定两种条件下的总体都是正态分布,且方差相等,计算总体均值差95%的置信区间。
均值差的假设检验:标准差未知,但假定相等的正态分布总体的独立小样本(小于30)
同上(置信区间),该条件下的假设检验适用t分布。
范例4:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两个条件下的总体是正态分布,并且有同方差,在显著水平0.02下,用临界决策规则作零假设:两总体均值差为0的双侧检验。
均值差的置信区间:标准差未知的任何总体分布的独立大样本(大于等于30)
对于独立大样本(样本容量大于等于30),均值差的抽样分布是正态分布,可以转为标准正态分布,进而使用Z分布进行均值差区间估计;当然,如果是正态总体且方差是齐性的,也可以使用t分布。
范例5:一位机场管理人员让你估计一下,两条航线中哪一条更遵守他们的计划起飞时间。对每条航线你随机测量了30架飞机的计划起飞和实际起飞时间差。现在不能假定时间总体是正态分布,或是方差齐性的,独立样本结果:航线1,平均时间差12.4min,标准差3.72;航线2,平均时间差11.7min,标准差3.6。问两条航线平均时间差的差值的99%置信区间是什么?
均值差的假设检验:标准差未知的任何总体分布的独立大样本(大于等于30)
同上的解释:对于独立大样本(样本容量大于等于30),均值差的抽样分布是正态分布,可以转为标准正态分布,进而使用Z分布进行均值差区间估计;当然,如果是正态总体且方差是齐性的,也可以使用t分布。
范例6:一位机场管理人员让你估计一下,两条航线中哪一条更遵守他们的计划起飞时间。对每条航线你随机测量了30架飞机的计划起飞和实际起飞时间差。现在不能假定时间总体是正态分布,或是方差齐性的,独立样本结果:航线1,平均时间差12.4min,标准差3.72;航线2,平均时间差11.7min,标准差3.6。在0.01显著水平下,用临界值决策规则作零假设:两条航线延误时间的差等于0的双侧检验。
均值差的置信区间:成对样本
对于成对样本,需要用到不同于上面描述的独立两样本的估计方法,而应该用成对样本模型,模型推导如下:
范例7:某个医学研究中心研究一种激素用量对于睡眠的影响。为了避免随机选择的偶然性(例如用15mg的病人比5mg的年轻)对试验结果的影响,于是根据可能影响睡眠的年龄、性别、健康情况一起其它因素选择了12对病人,然后将每对病人随机分配到5mg组和15mg组。对每个病人测量从服药到入睡的时间,然后计算每对的时间差,结果是:4.9,4.6,5.1,4.5,7.1,3.2,5.4,3.9,5.9,4.6,2.9,4.7。由这些数据计算5mg组合15mg组的95%置信区间,假定差值的总体是正态分布。
均值差的假设检验:成对样本
同上,成对样本均值差的假设检验也用t分布。
范例8:某个医学研究中心研究一种激素用量对于睡眠的影响。为了避免随机选择的偶然性(例如用15mg的病人比5mg的年轻)对试验结果的影响,于是根据可能影响睡眠的年龄、性别、健康情况一起其它因素选择了12对病人,然后将每对病人随机分配到5mg组和15mg组。对每个病人测量从服药到入睡的时间,然后计算每对的时间差,结果是:4.9,4.6,5.1,4.5,7.1,3.2,5.4,3.9,5.9,4.6,2.9,4.7。在显著水平0.05下,用临界值决策桂策做零假设:两总体均值差为0的右侧检验,假设差值总体是正态分布。
方差比
上一篇两样本估计和假设检验基础讲过,两样本均值估计和假设检验用均值差表示,而两样本方差估计和假设检验则应该用方差比。这里就引出了F分布(F分布回顾:两样本估计和假设检验基础)。
方差比的置信区间:参数未知的正态分布总体的独立样本
范例9:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两种条件下的总体都是正态分布,计算量总体方差比的90%置信区间。
范例10:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两总体方差齐性,在0.01显著水平下,用临界值决策规则作这个假定的双侧检验。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28