
一、线性回归的概念
对连续型数据做出预测属于回归问题。举个简单的例子:例如我们在知道房屋面积(HouseArea)和卧室的数量(Bedrooms)的情况下要求房屋的价格(Price)。通过一组数据,我们得到了这样的关系:
这样的关系就叫做线性回归方程,其中为回归系数。当我们知道房屋面积以及卧室数量时,就可以求出房屋的价格。当然还有一类是非线性回归。
二、基本线性回归
线性回归的目标是要求出线性回归方程,即求出线性回归方程中的回归系数。我们可以使用平方误差来求线性回归系数。平方误差可以表示为:
可以使用矩阵表示。对W求导,得到
。于是令其为0,即得到
的估计
三、基本线性回归实验
原始的数据
最佳拟合直线
MATLAB代码
主函数
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
%% load Data
A = load('ex0.txt');
X = A(:,1:2);%读取x
Y = A(:,3);
ws = standRegres(X,Y);
%% plot the regression function
x = 0:1;
y = ws(1,:)+ws(2,:)*x;
hold on
xlabel x;
ylabel y;
plot(X(:,2),Y(:,1),'.');
plot(x,y);
hold off
求权重的过程
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
function [ ws ] = standRegres( X, Y )
[m,n] = size(X);
ws = zeros(m,1);
XTX = X'*X;
if det(XTX) == 0
disp('This matrix is singular, cannot do inverse');
end
ws = XTX^(-1) *(X'*Y);
end
四、局部加权线性回归
在线性回归中会出现欠拟合的情况,有些方法可以用来解决这样的问题。局部加权线性回归(LWLR)就是这样的一种方法。局部加权线性回归采用的是给预测点附近的每个点赋予一定的权重,此时的回归系数可以表示为
为给每个点的权重。
LWLR使用核函数来对附近的点赋予更高的权重,常用的有高斯核,对应的权重为
这样的权重矩阵只含对角元素。
五、局部加权线性回归实验
对上组数据做同样的处理:
MATLAB代码
主函数
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
%% load Data
A = load('ex0.txt');
X = A(:,1:2);
Y = A(:,3);
[SX,index] = sort(X);%得到排序和索引
%yHat = lwlrTest(SX, X, Y, 1);
%yHat = lwlrTest(SX, X, Y, 0.01);
%yHat = lwlrTest(SX, X, Y, 0.003);
hold on
xlabel x;
ylabel y;
plot(X(:,2),Y(:,1),'.');
plot(SX(:,2),yHat(:,:));
hold off
LWLR
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
function [ output ] = lwlr( testPoint, X, Y, k )
[m,n] = size(X);%得到数据集的大小
weight = zeros(m,m);
for i = 1:m
diff = testPoint - X(i,:);
weight(i,i) = exp(diff * diff'./(-2*k^2));
end
XTX = X'*(weight * X);
if det(XTX) == 0
disp('his matrix is singular, cannot do inverse');
end
ws = XTX^(-1) * (X' * (weight * Y));
output = testPoint * ws;
end
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
function [ y ] = lwlrTest( test, X, Y, k )
[m,n] = size(X);
y = zeros(m,1);
for i = 1:m
y(i,:) = lwlr(test(i,:), X, Y, k);
end
end
当k=1时是欠拟合,当k=0.003时是过拟合,选择合适的很重要。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27