
一、数据降维
对于现在维数比较多的数据,我们首先需要做的就是对其进行降维操作。降维,简单来说就是说在尽量保证数据本质的前提下将数据中的维数降低。降维的操作可以理解为一种映射关系,例如函数,即由原来的二维转换成了一维。处理降维的技术有很多种,如前面的SVD奇异值分解,主成分分析(PCA),因子分析(FA),独立成分分析(ICA)等等。
二、PCA的概念
PCA是一种较为常用的降维技术,PCA的思想是将n维特征映射到K维上,这维是全新的正交特征。这K维特征称为主元,是重新构造出来的K维特征。在PCA中,数据从原来的坐标系转换到新的坐标系下,新的坐标系的选择与数据本身是密切相关的。其中,第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选取的是与第一个坐标轴正交且具有最大方差的方向,依次类推,我们可以取到这样的K个坐标轴。
三、PCA的操作过程
1、PCA的操作流程大致如下:
去平均值,即每一位特征减去各自的平均值
计算协方差矩阵
计算协方差矩阵的特征值与特征向量
对特征值从大到小排序
保留最大的K个特征向量
将数据转换到K个特征向量构建的新空间中
2、具体的例子
假设二维数据为
取平均值
我们计算每一维特征的平均值,并去除平均值,我们计算出均值为
去除均值后的矩阵为
计算的协方差矩阵
计算的特征值与特征向量
其中,特征值为
特征向量为
对特征值进行排序,显然就两个特征值
选择最大的那个特征值对应的特征向量
转换到新的空间
四、实验的仿真
我们队一个数据集进行了测试:
MATLAB实验代码如下:
主程序
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
%% pca
dataSet = load('testSet.txt');%导入数据
% pca
[FinalData, reconData] = PCA(dataSet, 1);
%% 作图
hold on
plot(dataSet(:,1), dataSet(:,2), '.');
plot(reconData(:,1), reconData(:,2), '.r');
hold off
PCA函数段
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
function [ FinalData,reconData ] = PCA( dataSet, k )
[m,n] = size(dataSet);
%% 去除平均值
%取平均值
dataSetMean = mean(dataSet);
%减去平均值
dataSetAdjust = zeros(m,n);
for i = 1 : m
dataSetAdjust(i , :) = dataSet(i , :) - dataSetMean;
end
%% 计算协方差矩阵
dataCov = cov(dataSetAdjust);
%% 计算协方差矩阵的特征值与特征向量
[V, D] = eig(dataCov);
% 将特征值矩阵转换成向量
d = zeros(1, n);
for i = 1:n
d(1,i) = D(i,i);
end
%% 对特征值排序
[maxD, index] = sort(d);
%% 选取前k个最大的特征值
% maxD_k = maxD(1, (n-k+1):n);
index_k = index(1, (n-k+1):n);
% 对应的特征向量
V_k = zeros(n,k);
for i = 1:k
V_k(:,i) = V(:,index_k(1,i));
end
%% 转换到新的空间
FinalData = dataSetAdjust*V_k;
% 在原图中找到这些点
reconData = FinalData * V_k';
for i = 1 : m
reconData(i , :) = reconData(i , :) + dataSetMean;
end
end
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28PCU:游戏运营的 “实时晴雨表”—— 从数据监控到运营决策的落地指南 在游戏行业,DAU(日活跃用户)、MAU(月活跃用户)是衡量 ...
2025-08-28Excel 聚类分析:零代码实现数据分群,赋能中小团队业务决策 在数字化转型中,“数据分群” 是企业理解用户、优化运营的核心手段 ...
2025-08-28CDA 数据分析师:数字化时代数据思维的践行者与价值推动者 当数字经济成为全球经济增长的核心引擎,数据已从 “辅助性信息” 跃 ...
2025-08-28ALTER TABLE ADD 多个 INDEX:数据库批量索引优化的高效实践 在数据库运维与性能优化中,索引是提升查询效率的核心手段。当业务 ...
2025-08-27Power BI 去重函数:数据清洗与精准分析的核心工具 在企业数据分析流程中,数据质量直接决定分析结果的可靠性。Power BI 作为主 ...
2025-08-27CDA 数据分析师:数据探索与统计分析的实践与价值 在数字化浪潮席卷各行业的当下,数据已成为企业核心资产,而 CDA(Certif ...
2025-08-27