回归分析和相关分析_数据分析师培训-CDA数据分析师官网

热线电话：13121318867

回归分析和相关分析_数据分析师培训

2015-04-02

回归分析和相关分析_数据分析师培训

回归分析和相关分析是互相补充、密切联系的，相关分析需要回归分析来表明现象数量关系的具体形式，而回归分析则应该建立在相关分析的基础上。
主要区别有:一,在回归分析中,不仅要根据变量的地位,作用不同区分出自变量和因变量,把因变量置于被解释的特殊地位,而且以因变量为随机变量,同时总假定自变量是非随机的可控变量.在相关分析中,变量间的地位是完全平等的,不仅无自变量和因变量之分,而且相关变量全是随机变量. 二,相关分析只限于描述变量间相互依存关系的密切程度,至于相关变量间的定量联系关系则无法明确反映.而回归分析不仅可以定量揭示自变量对应变量的影响大小,还可以通过回归方程对变量值进行预测和控制.

相关分析与回归分析均为研究2个或多个变量间关联性的方法，但2种数理统计方法存在本质的差别，即它们用于不同的研究目的。(CDA数据分析师培训)相关分析的目的在于检验两个随机变量的共变趋势（即共同变化的程度），回归分析的目的则在于试图用自变量来预测因变量的值。

在相关分析中，两个变量必须同时都是随机变量，如果其中的一个变量不是随机变量，就不能进行相关分析，这是相关分析方法本身所决定的。对于回归分析，其中的因变量肯定为随机变量（这是回归分析方法本身所决定的），而自变量则可以是普通变量（有确定的取值）也可以是随机变量。

在统计学教科书中习惯把相关与回归分开论述，其实在应用时，当两变量都是随机变量时，常需同时给出这两种方法分析的结果；

如果自变量是普通变量，即模型Ⅰ回归分析，采用的回归方法就是最为常用的最小二乘法。如果自变量是随机变量，即模型Ⅱ回归分析，所采用的回归方法与计算者的目的有关。在以预测为目的的情况下，仍采用“最小二乘法”（但精度下降—最小二乘法是专为模型Ⅰ 设计的，未考虑自变量的随机误差）；在以估值为目的（如计算可决系数、回归系数等）的情况下，应使用相对严谨的方法（如“主轴法”、“约化主轴法”或“Bartlett法” ）。显然，对于回归分析，如果是模型Ⅱ回归分析，鉴于两个随机变量客观上存在“相关性”问题，只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段，因此，若以预测为目的，最好不提“相关性”问题；若以探索两者的“共变趋势”为目的，应该改用相关分析。如果是模型Ⅰ回归分析，就根本不可能回答变量的“相关性”问题，因为普通变量与随机变量之间不存在“相关性”这一概念（问题在于，大多数的回归分析都是模型Ⅰ回归分析！）。此时，即使作者想描述2个变量间的“共变趋势”而改用相关分析，也会因相关分析的前提不存在而使分析结果毫无意义。

需要特别指出的是，回归分析中的R2在数学上恰好是Pearson积矩相关系数r的平方。因此，这极易使作者们错误地理解R2的含义，认为R2就是 “相关系数”或“相关系数的平方”。问题在于，对于自变量是普通变量（即其取值有确定性的变量）、因变量为随机变量的模型Ⅰ回归分析，2个变量之间的“相关性”概念根本不存在，又何谈“相关系数”呢？更值得注意的是，一些早期的教科书作者不是用R2来描述回归效果（拟合程度，拟合度）的，而是用Pearson积矩相关系数来描述。这就更容易误导读者。

一个不显著的相关系数不一定意味着变量间没有关系可能有三种情况：1，真的没有关系，2，有一定线性关系，由于样本小、误差大而未能检验出，3，可能是非线性关系。
而一个显著的回归并不一定具有实践的预测、控制意义，还要看决定系数的