
数据分析技术:相关关系分析;说“你好我也好”,这不足够
基础准备
数据的相关性分析是生活中运用十分广泛的一种数据分析方法。例如,在某个妇科产品的广告里,用“你好我也好”来表达用了产品就能健康的相关关系;在朋友交往中,患难见真情帮助人们知道哪个才是真正亲密的朋友;过年走亲戚,用代际血缘的远近来描述不同亲戚之间的亲密程度。在数据分析领域,对于不同变量之间相关关系的衡量指标也是不同的。
实际的生产生活中,很多事物之间有着千丝万缕的联系,这些联系有的紧密,有的稀松。表达互相联系事物的依存情况有两种方式:相关关系和回归关系(函数关系)。回归关系是一种确定关系,通过一个或几个事物的取值能够得到另一个事物的取值,这是通过回归方程(函数方程)实现的。相关关系不是确定关系,当一个或几个事物的取值发生变化时,与它(它们)有联系的事物的取值也会发生变化,但变化值不是确定的数值。基于这些区别,在数据分析中,一般先做相关关系的分析,待相关关系清楚以后,再进一步确定不同变量之间的函数关系(回归关系)。
相关关系分类
相关关系从不同的角度有不同的分类方式。首先是按照相关关系强度划分:完全相关,弱相关和不相关。也能按照相关关系的方向分类:正相关和负相关。以上两种是最常用的分类方式。除此之外,还有两种分类方式,需要重点介绍。
按照相关关系形态划分,可以分为线性相关和非线性相关。当一个变量的值发生变化时,另外一个变量也发生大致相同的变化。在直角坐标系里,两个变量的观测值的分布大致在一条直线上,那么这两个变量之间的相关关系是线性关系;如果在直角指标系内,两个变量的观测值分布是一条曲线,那么它们之间的相关关系是非线性相关。
还有一种相关关系的划分原则是按照变量的个数划分,可以分为单相关,复相关和偏相关。单相关是两个变量之间的关系,这两个变量一个是因变量,一个是自变量。两个变量的相关关系分析也被称为二元变量相关分析。复相关是指三个或三个以上的变量之间的关系,即一个因变量对两个或两个以上自变量的相关关系。偏相关综合了单相关和复相关的特点,当一个变量与多个变量相关,但是只关心其中一个因变量与自变量的关系,需要屏蔽其他因变量对自变量的影响,这样的相关关系就叫做偏相关。
相关分析
相关分析是将变量之间相关关系进行量化处理的过程,通过计算变量间的相关系数,对两个或两个以上变量之间两两相关的强度进行量化描述。量化描述的结果就是各种不同的相关系数。
二元变量相关系数
二元变量的相关分析计算得到的是两个变量之间的相关系数。具体而言,两个定距和定比变量间的相关性用Pearson(皮尔逊)相关系数来判定,这是参数检验的方法;两个定序或定类变量间的相关性用Spearman等级相关系数和Kendall’s tau-b等级相关系数来判定,这两种方法属于非参数检验。
Pearson简单相关系数
皮尔逊简单相关,也称积差相关。是以英国统计学家皮尔逊的名字命名的计算线性相关的方法,用于对定距或定比变量的相关性探索。皮尔逊相关系数的计算公式:
使用条件:
两个变量都是由测量获得的连续型数据,即等距或等比数据。
两个变量的总体都呈正态分布或接近正态分布,,至少是单峰对称分布,当然样本并不一定要正态。
必须是成对的数据,并且每对数据之间是相互独立的。
两个变量之间呈线性关系,一般用描绘散点图的方式来观察。
Spearman等级相关系数
Spearman相关系数是由英国统计学家Spearman在Pearson相关的基础上剔除的等级相关系数的计算方法,用于对定类或定序变量的相关性检验,可以看作是Pearson相关系数的非参数检验,因为它依据的是数据的秩而非数据的实际值。Spearman相关系数的取值范围也是在-1到+1之间,绝对值越大相关性越强,正负号表示相关的方向。Spearman相关系数计算公式:
Spearman等级相关系数的特点:
如果两变量正相关较强,则它们秩变化同步,D值较小,等级相关系数趋于1;
如果两变量负相关较强,则它们秩变化相反,D值较大,等级相关系数趋于-1;
如果两变量相关性弱,它们秩变化互不影响,D值趋于中间值,等级相关系数趋于0;
Kendall’s tau-b等级相关系数
和Spearman相关系数一样,Kendall’stau-b等级相关系数也是用于对定序变量的相关程度的度量,也属于非参数检验的范畴。它利用变量秩数据来计算一致对数目U和非一致对数目V。当两个变量具有较强的正相关关系时,一致对数目U较大,非一致对数目V较小;当两个变量具有较强的负相关关系时,一致对数目U较小,非一致对数目V较大;当两个变量相关性较弱时,一致对数目U和非一致对数目V大致相等。Kendalltau-b相关系数定义为:
Kendall tau-b相关系数具有如下特点:
如果两变量正相关性强,秩变化同步,则U应该较大,V应该较小,趋于1;
如果两变量负相关性强,秩变化相反,则U应该较小,V应该较大,趋于-1;
如果相关关系弱,则U,V大致相等,趋于0;
偏相关分析系数
在实际生活中,一个事物的变化往往会受到多个事物的影响,而非完全的二元相关关系,因此这就使得二元变量相关系数不能真真反映两个变量间的线性相关程度。那么当两个变量的取值受到其它变量影响时,可以利用偏相关分析对其它变量进行控制,以输出控制其它变量影响后的相关系数,这就是偏相关分析过程。
偏相关分析就是在分析两个变量之间的线性相关关系时控制可能对其产生影响的变量,以便于使分析结果更准确可靠。偏相关分析也称为净相关分析,分析依据是偏相关系数。当有1个控制变量时,偏相关系数称为一阶偏相关;当有两个控制变量时,偏相关系数称为二阶偏相关;当控制变量为0个时,偏相关系数称为零阶偏相关,也就是Pearson简单相关系数。
偏相关分析的零假设为:两事物的偏相关系数与零无显著差异。假设分析中有3个变量x,y,z,在分析x与y的相关性时需要控制变量z,那么x,y之间的一阶偏相关系数计算公式为:
其中,r是相应的偏相关系数,n是样本数,k是控制变量的数目,n-k-2是自由度。
距离相关分析
显示生活中,事物之间的关系往往错综复杂,设计的变量很多,且它们代表的信息也非常繁杂,我们通过观察无法厘清这些变量及其观测值之间的内在关系,为了判别错综复杂的变量及其观测值之间是否具有相似性,是否属于同一类别,通常采用更为复杂的分析手段,距离相关分析。
距离相关分析用于对不同个案间或同一变量的不同观测值之间进行相似性或不相似性的测量。距离相关分析的结果可为进一步的因子分析,聚类分析和多维尺度分析等提供信息,以帮助了解复杂数据的内在结构,为进一步分析打下基础,因此距离相关分析通常不单独使用,所以其分析结果不会给出显著性值,而只是给出各个案或各观测值之间的距离大小,再由研究者自行判断其相似或不相似程度。
距离相关分析根据统计量的不同,可分为两种情况:
非相似性测量:计算个案或变量值之间的距离。其数值越大,表示相似性程度越弱。
相似性测量:计算个案或变量值之间的Pearson相关系数或Cosine相关,取值范围为-1~+1,其数值越大,表示相似程度越高。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29在标签体系的落地链路中,“设计标签逻辑” 只是第一步,真正让标签从 “纸上定义” 变为 “业务可用资产” 的关键,在于标签加 ...
2025-09-29在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28