R语言解读多元线性回归模型-CDA数据分析师官网

热线电话：13121318867

R语言解读多元线性回归模型

2017-05-31

在许多生活和工作的实际问题中，影响因变量的因素可能不止一个，比如对于知识水平越高的人，收入水平也越高，这样的一个结论。这其中可能包括了因为更好的家庭条件，所以有了更好的教育;因为在一线城市发展，所以有了更好的工作机会;所处的行业赶上了大的经济上行周期等。要想解读这些规律，是复杂的、多维度的，多元回归分析方法更适合解读生活的规律。

由于本文为非统计的专业文章，所以当出现与教课书不符的描述，请以教课书为准。本文力求用简化的语言，来介绍多元线性回归的知识，同时配合 R语言的实现。

1. 多元线性回归介绍

对比一元线性回归，多元线性回归是用来确定2个或2个以上变量间关系的统计分析方法。多元线性回归的基本的分析方法与一元线性回归方法是类似的，我们首先需要对选取多元数据集并定义数学模型，然后进行参数估计，对估计出来的参数进行显著性检验，残差分析，异常点检测，最后确定回归方程进行模型预测。

由于多元回归方程有多个自变量，区别于一元回归方程，有一项很重要的操作就是自变量的优化，挑选出相关性最显著的自变量，同时去除不显著的自变量。在R语言中，有很方便地用于优化函数，可以很好的帮助我们来改进回归模型。

下面就开始多元线性回归的建模过程。

2. 多元线性回归建模

做过商品期货研究的人，都知道黑色系品种是具有产业链上下游的关系。铁矿石是炼钢的原材料，焦煤和焦炭是炼钢的能源资源，热卷即热轧卷板是以板坯为原料经加热后制成的钢板，螺纹钢是表面带肋的钢筋。

由于有产业链的关系，假设我们想要预测螺纹钢的价格，那么影响螺纹钢价格的因素可以会涉及到原材料，能源资源和同类材料等。比如，铁矿石价格如果上涨，螺纹钢就应该要涨价了。

2.1 数据集和数学模型

先从数据开始介绍，这次的数据集，我选择的期货黑色系的品种的商品期货，包括了大连期货交易所的焦煤(JM)，焦炭(J)，铁矿石(I)，上海期货交易所的螺纹钢(RU) 和热卷(HC)。

数据集为2016年3月15日，当日白天开盘的交易数据，为黑色系的5个期货合约的分钟线的价格数据。

数据集包括有6列:索引, 为时间

x1, 为焦炭(j1605)合约的1分钟线的报价数据

x2, 为焦煤(jm1605)合约的1分钟线的报价数据

x3, 为铁矿石(i1605)合约的1分钟线的报价数

x4, 为热卷(hc1605)合约的1分钟线的报价数据

y, 为螺纹钢(rb1605)合约的1分钟线的报价数据

假设螺纹钢的价格与其他4个商品的价格有线性关系，那么我们建立以螺纹钢为因变量，以焦煤、焦炭、铁矿石和热卷的为自变量的多元线性回归模型。用公式表示为：

y，为因变量，螺纹钢

x1，为自变量，焦煤

x2，为自变量，焦炭x3，为自变量，铁矿石

x4，为自变量，热卷

a，为截距

b,c,d,e，为自变量系数

ε, 为残差，是其他一切不确定因素影响的总和，其值不可观测。假定ε服从正态分布N(0,σ^2)。

通过对多元线性回归模型的数学定义，接下来让我们利用数据集做多元回归模型的参数估计。

2.2. 回归参数估计

上面公式中，回归参数 a, b, c, d,e都是我们不知道的，参数估计就是通过数据来估计出这些参数，从而确定自变量和因变量之前的关系。我们的目标是要计算出一条直线，使直线上每个点的Y值和实际数据的Y值之差的平方和最小，即(Y1实际-Y1预测)^2+(Y2实际-Y2预测)^2+ …… +(Yn实际-Yn预测)^2 的值最小。参数估计时，我们只考虑Y随X自变量的线性变化的部分，而残差ε是不可观测的，参数估计法并不需要考虑残差。

类似于一元线性回归，我们用R语言来实现对数据的回归模型的参数估计，用lm()函数来实现多元线性回归的建模过程。