PCA降维原理(主成分分析)的数学理论-CDA数据分析师官网

热线电话：13121318867

PCA降维原理(主成分分析)的数学理论

2020-07-03

在机器学习中，有成千上万甚至几十万的维度的数据需要处理，这种情况下机器学习的资源消耗是不可接受的，并且很大程度上影响着算法的复杂度，因此对数据降维是必要的。PCA(Principal Component Analysis)是一种常用的数据分析方法，也是最基础的无监督降维算法。通常用于高维数据集的探索与可视化，还可以用于数据压缩，数据预处理等。PCA通过线性变换将原始数据变换为一组各维度线性无关表示，可用于提取数据的主要特征分量及高维数据的降维,而转换后的这组变量便是我们所说的主成分。

均值和零均值化

均值

在PCA 降维过程中，我们所求的均值是每个维度的均值。

零均值化

然后将每个维度的数据进行零均值化，所谓零均值化就是让均值为0.即每个数据都减去均值。

进行去均值的原因是如果不去均值的话会容易拟合。在神经网络中，如果特征值x比较大的时候，会导致W*x+b的结果也会很大，这样进行激活函数(如relu)输出时，会导致对应位置数值变化量相对来说太小，进行反向传播时因为要使用这里的梯度进行计算，所以会导致梯度消散问题，导致参数改变量很小，也就会易于拟合，效果不好。

特征向量和特征值

定义

若A为n阶矩阵，若数λ和n维非0列向量X满足AX=λX，那么数λ称为A的特征值，X称为A的对应于特征值λ的特征向量

在PCA 降维过程中，本质就是把原有数据投影到新的一个空间，我们也就可以看做是在原有数据基础上求解特征向量和特征值

性质

特征值和特征向量具有以下性质：

1.同一个矩阵的不同特征值对应的特征向量是线性无关的

2.对于同一个特征值对应的特征向量的非零线性组合仍是该特征值对应的特征向量

3.矩阵的特征向量总是相对于矩阵的特征值而言，一个特征值具有特征向量不唯一，一个特征向量不能对应不同特征值

从特征向量和特征值的性质我们就可以发现正好符合PCA 降维过程中取方差较大和线性不相关的前k维数据作为降维后数据的目的

方差

方差是是用来表示数据的离散程度的，方差越大，离散程度越大，也就是数据波动就越大。

方差的计算：前面已经说了，需要先对每个维度的数据做零均值化，那么方差就是去均值后的平方和的均值

PCA中方差的意义：PCA的本质就是找一些投影方向，使得数据在这些投影方向上的方差最大，而且这些投影方向是相互正交的(即：相关性几乎为0)。这其实就是找新的正交基的过程，计算原始数据在这些正交基上投影的方差，方差越大，就说明在对应正交基上包含了更多的信息量，对数据特征影响更大，我们暂且把这些信息量可以记为特征值。原始数据协方差矩阵的特征值越大，对应的方差越大，在对应的特征向量上投影的信息量就越大。反之，如果特征值较小，则说明数据在这些特征向量上投影的信息量很小，可以将小特征值对应方向的数据删除，从而达到了降维的目的。

协方差

协方差可以计算不同变量之间的相关性：

如果cov(x,y)=-1.变量之间完全负相关

如果cov(x,y)=1.变量之间完全正相关

如果cov(x,y)=0.变量之间完全不相关

而当x和y相等时，协方差的值就等于方差，所以也可以看作方差是协方差的一种特殊情况

在PCA的过程中我们是对原始数据做过零均值化处理的，故，协方差可以变为：

那么每个维度之间的相关性计算方式为：

协方差矩阵

协方差只能表示两个维度变量之间的相互关系，如果有多个维度随机变量，就需要使用协方差矩阵，我们假设现在又三个维度随机变量x,y,z,那么对应的协方差矩阵则为：

矩阵对角化定义

对角矩阵(diagonal matrix)是一个主对角线之外的元素皆为0的矩阵。对角线上的元素可以为0或其他值

如果存在一个可逆矩阵 P 使得 P-1AP 是对角矩阵，则矩阵A就被称为可对角化矩阵

如果一个矩阵与一个对角矩阵相似，我们就称这个矩阵可经相似变换对角化，简称可对角化;与之对应的线性变换就称为可对角化的线性变换

协方差矩阵对角化

上文我们已经说明了协方差矩阵是一个实对称矩阵，由实对称矩阵和相似矩阵性质我们可以得出协方差矩阵C具有的性质：

和C相似的对角矩阵，其对角元素为各特征向量对应的特征值(可能有重复)即：C的特征值就是相似对角矩阵的对角元素

我们假设C的相似对角矩阵为A，那么如果存在一个矩阵P使得P-1CP=A，根据对角矩阵的特点，我们就可以发现矩阵P的每一行就是我们所要找的协方差矩阵的特征向量，而特征值就是对角矩阵的对角元素，现在我们离整个PCA过程还有一步，先把每一个特征向量变成单位向量，然后再按照特征值的大小进行排序，取前K行特征值对应的单位向量组成的矩阵和标准化后数据相乘，就得到了我们需要的降维后的数据矩阵。

至此，整个PCA 降维过程涉及到的数学理论就完成了。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；