京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者:丁点helper
来源:丁点帮你
前面两篇文章,我们聚焦于线性回归的回归系数,理清了样本与总体回归方程的区别、回归系数的最小二乘法估计等问题,今天我们重点来看看线性回归的残差和预测值。
回归分析的残差
前面我们谈到过样本回归方程有两种写法:
这里,残差的头上也有一个“^”(hat),意味着残差也有总体与样本之分。由上面残差的计算公式也可推知这一点,因为预测值有样本与总体之分,所以残差也自然也是有的。
我们做线性回归的时候一般需满足:
1)线性(L):因变量与自变量之间呈线性关系;
2)独立(I):各观测值相互独立;
3)正态(N):自变量(X)固定时所对应的因变量(Y)服从正态分布;
以上四个条件即俗称的LINE条件。这些条件虽然是针对因变量而言的,但我们却可以通过对残差进行分析达到检验的目的。一般而言,如果残差满足以上四个条件,则称线性回归的假设条件得到满足。
(有关回归诊断的问题,后面我们会专门详细介绍。)
回归分析的预测值
看完残差,我们再来看看预测值。这里要指出回归方程的第三种写法(一般对于总体回归):
看到 μ第一反应应该是均数,而且是总体均数(非样本均数),所以 μγ在相关教材上被称作“X取某个特定数值时,Y的条件总体均数”。
这里的“条件总体均数”估计会看晕不少人。所谓“条件”,意味着Y的取值是依据X的取值而定的,“X的取值”是确定Y的前提条件。
由此,严格来说, Ý应该是 μγ 的预测值。
这意味着给定X的取值,我们通过回归获得的是Y的一个平均值。比如前面文章中谈到的教育程度(X)和收入(Y)的回归方程:
当X=15时,可以计算得出 Ý=5000,严格来讲,这里算出的5000并非是某个人的具体收入,而是一群接受了15年教育的人,其收入的平均数。
因为即便是大家都接受了15年教育,但收入也并不完全相同,有的可能一两万,而有的也可能一两千。而我们通过回归获得是收入(Y)在教育程度为15年(X=15)的一个平均数。
理解了这一层,再看下面这图应该会比较轻松。
回归线与竖线的交点,即是回归预测值,也是这个正态曲线的均值。均值对应着正态分布的波峰,意味着即使这一群人的实际收入有差距,但大部分人仍然会围绕5000上下小幅波动(当X=15时)。
这里的正态分布之所以有四个,是因为在不同X的取值水平下,Y的取值会发生(系统性)的变化,即Y的均值会随着X的变化而变化。
这一点其实描述了回归最本质的意义,试想,如果Y的正态分布不随X变化,那意味就X不会对Y产生影响,则两者可能就不存在线性相关。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12在CDA(Certified Data Analyst)数据分析师的日常工作中,“挖掘变量间的关联关系”是高频核心需求——比如判断“用户停留时长 ...
2026-01-12在存量竞争时代,用户流失率直接影响企业的营收与市场竞争力。无论是电商、互联网服务还是金融行业,提前精准预测潜在流失用户, ...
2026-01-09在量化投资领域,多因子选股是主流的选股策略之一——其核心逻辑是通过挖掘影响股票未来收益的各类因子(如估值、成长、盈利、流 ...
2026-01-09在CDA(Certified Data Analyst)数据分析师的工作场景中,分类型变量的关联分析是高频需求——例如“用户性别与商品偏好是否相 ...
2026-01-09数据库中的历史数据,是企业运营过程中沉淀的核心资产——包含用户行为轨迹、业务交易记录、产品迭代日志、市场活动效果等多维度 ...
2026-01-08在电商行业竞争日趋激烈的当下,数据已成为驱动业务增长的核心引擎。电商公司的数据分析师,不仅是数据的“解读官”,更是业务的 ...
2026-01-08在数据驱动决策的链路中,统计制图是CDA(Certified Data Analyst)数据分析师将抽象数据转化为直观洞察的关键载体。不同于普通 ...
2026-01-08在主成分分析(PCA)的学习与实践中,“主成分载荷矩阵”和“成分矩阵”是两个高频出现但极易混淆的核心概念。两者均是主成分分 ...
2026-01-07在教学管理、学生成绩分析场景中,成绩分布图是直观呈现成绩分布规律的核心工具——通过图表能快速看出成绩集中区间、高分/低分 ...
2026-01-07在数据分析师的工作闭环中,数据探索与统计分析是连接原始数据与业务洞察的关键环节。CDA(Certified Data Analyst)作为具备专 ...
2026-01-07在数据处理与可视化场景中,将Python分析后的结果导出为Excel文件是高频需求。而通过设置单元格颜色,能让Excel中的数据更具层次 ...
2026-01-06在企业运营、业务监控、数据分析等场景中,指标波动是常态——无论是日营收的突然下滑、用户活跃度的骤升,还是产品故障率的异常 ...
2026-01-06在数据驱动的建模与分析场景中,“数据决定上限,特征决定下限”已成为行业共识。原始数据经过采集、清洗后,往往难以直接支撑模 ...
2026-01-06在Python文件操作场景中,批量处理文件、遍历目录树是高频需求——无论是统计某文件夹下的文件数量、筛选特定类型文件,还是批量 ...
2026-01-05在神经网络模型训练过程中,开发者最担心的问题之一,莫过于“训练误差突然增大”——前几轮还平稳下降的损失值(Loss),突然在 ...
2026-01-05在数据驱动的业务场景中,“垃圾数据进,垃圾结果出”是永恒的警示。企业收集的数据往往存在缺失、异常、重复、格式混乱等问题, ...
2026-01-05在数字化时代,用户行为数据已成为企业的核心资产之一。从用户打开APP的首次点击,到浏览页面的停留时长,再到最终的购买决策、 ...
2026-01-04在数据分析领域,数据稳定性是衡量数据质量的核心维度之一,直接决定了分析结果的可靠性与决策价值。稳定的数据能反映事物的固有 ...
2026-01-04