京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据分析技术:相关关系分析;说“你好我也好”,这不足够
基础准备
数据的相关性分析是生活中运用十分广泛的一种数据分析方法。例如,在某个妇科产品的广告里,用“你好我也好”来表达用了产品就能健康的相关关系;在朋友交往中,患难见真情帮助人们知道哪个才是真正亲密的朋友;过年走亲戚,用代际血缘的远近来描述不同亲戚之间的亲密程度。在数据分析领域,对于不同变量之间相关关系的衡量指标也是不同的。
实际的生产生活中,很多事物之间有着千丝万缕的联系,这些联系有的紧密,有的稀松。表达互相联系事物的依存情况有两种方式:相关关系和回归关系(函数关系)。回归关系是一种确定关系,通过一个或几个事物的取值能够得到另一个事物的取值,这是通过回归方程(函数方程)实现的。相关关系不是确定关系,当一个或几个事物的取值发生变化时,与它(它们)有联系的事物的取值也会发生变化,但变化值不是确定的数值。基于这些区别,在数据分析中,一般先做相关关系的分析,待相关关系清楚以后,再进一步确定不同变量之间的函数关系(回归关系)。
相关关系分类
相关关系从不同的角度有不同的分类方式。首先是按照相关关系强度划分:完全相关,弱相关和不相关。也能按照相关关系的方向分类:正相关和负相关。以上两种是最常用的分类方式。除此之外,还有两种分类方式,需要重点介绍。
按照相关关系形态划分,可以分为线性相关和非线性相关。当一个变量的值发生变化时,另外一个变量也发生大致相同的变化。在直角坐标系里,两个变量的观测值的分布大致在一条直线上,那么这两个变量之间的相关关系是线性关系;如果在直角指标系内,两个变量的观测值分布是一条曲线,那么它们之间的相关关系是非线性相关。
还有一种相关关系的划分原则是按照变量的个数划分,可以分为单相关,复相关和偏相关。单相关是两个变量之间的关系,这两个变量一个是因变量,一个是自变量。两个变量的相关关系分析也被称为二元变量相关分析。复相关是指三个或三个以上的变量之间的关系,即一个因变量对两个或两个以上自变量的相关关系。偏相关综合了单相关和复相关的特点,当一个变量与多个变量相关,但是只关心其中一个因变量与自变量的关系,需要屏蔽其他因变量对自变量的影响,这样的相关关系就叫做偏相关。
相关分析
相关分析是将变量之间相关关系进行量化处理的过程,通过计算变量间的相关系数,对两个或两个以上变量之间两两相关的强度进行量化描述。量化描述的结果就是各种不同的相关系数。
二元变量相关系数
二元变量的相关分析计算得到的是两个变量之间的相关系数。具体而言,两个定距和定比变量间的相关性用Pearson(皮尔逊)相关系数来判定,这是参数检验的方法;两个定序或定类变量间的相关性用Spearman等级相关系数和Kendall’s tau-b等级相关系数来判定,这两种方法属于非参数检验。
Pearson简单相关系数
皮尔逊简单相关,也称积差相关。是以英国统计学家皮尔逊的名字命名的计算线性相关的方法,用于对定距或定比变量的相关性探索。皮尔逊相关系数的计算公式:
使用条件:
两个变量都是由测量获得的连续型数据,即等距或等比数据。
两个变量的总体都呈正态分布或接近正态分布,,至少是单峰对称分布,当然样本并不一定要正态。
必须是成对的数据,并且每对数据之间是相互独立的。
两个变量之间呈线性关系,一般用描绘散点图的方式来观察。
Spearman等级相关系数
Spearman相关系数是由英国统计学家Spearman在Pearson相关的基础上剔除的等级相关系数的计算方法,用于对定类或定序变量的相关性检验,可以看作是Pearson相关系数的非参数检验,因为它依据的是数据的秩而非数据的实际值。Spearman相关系数的取值范围也是在-1到+1之间,绝对值越大相关性越强,正负号表示相关的方向。Spearman相关系数计算公式:
Spearman等级相关系数的特点:
如果两变量正相关较强,则它们秩变化同步,D值较小,等级相关系数趋于1;
如果两变量负相关较强,则它们秩变化相反,D值较大,等级相关系数趋于-1;
如果两变量相关性弱,它们秩变化互不影响,D值趋于中间值,等级相关系数趋于0;
Kendall’s tau-b等级相关系数
和Spearman相关系数一样,Kendall’stau-b等级相关系数也是用于对定序变量的相关程度的度量,也属于非参数检验的范畴。它利用变量秩数据来计算一致对数目U和非一致对数目V。当两个变量具有较强的正相关关系时,一致对数目U较大,非一致对数目V较小;当两个变量具有较强的负相关关系时,一致对数目U较小,非一致对数目V较大;当两个变量相关性较弱时,一致对数目U和非一致对数目V大致相等。Kendalltau-b相关系数定义为:
Kendall tau-b相关系数具有如下特点:
如果两变量正相关性强,秩变化同步,则U应该较大,V应该较小,趋于1;
如果两变量负相关性强,秩变化相反,则U应该较小,V应该较大,趋于-1;
如果相关关系弱,则U,V大致相等,趋于0;
偏相关分析系数
在实际生活中,一个事物的变化往往会受到多个事物的影响,而非完全的二元相关关系,因此这就使得二元变量相关系数不能真真反映两个变量间的线性相关程度。那么当两个变量的取值受到其它变量影响时,可以利用偏相关分析对其它变量进行控制,以输出控制其它变量影响后的相关系数,这就是偏相关分析过程。
偏相关分析就是在分析两个变量之间的线性相关关系时控制可能对其产生影响的变量,以便于使分析结果更准确可靠。偏相关分析也称为净相关分析,分析依据是偏相关系数。当有1个控制变量时,偏相关系数称为一阶偏相关;当有两个控制变量时,偏相关系数称为二阶偏相关;当控制变量为0个时,偏相关系数称为零阶偏相关,也就是Pearson简单相关系数。
偏相关分析的零假设为:两事物的偏相关系数与零无显著差异。假设分析中有3个变量x,y,z,在分析x与y的相关性时需要控制变量z,那么x,y之间的一阶偏相关系数计算公式为:
其中,r是相应的偏相关系数,n是样本数,k是控制变量的数目,n-k-2是自由度。
距离相关分析
显示生活中,事物之间的关系往往错综复杂,设计的变量很多,且它们代表的信息也非常繁杂,我们通过观察无法厘清这些变量及其观测值之间的内在关系,为了判别错综复杂的变量及其观测值之间是否具有相似性,是否属于同一类别,通常采用更为复杂的分析手段,距离相关分析。
距离相关分析用于对不同个案间或同一变量的不同观测值之间进行相似性或不相似性的测量。距离相关分析的结果可为进一步的因子分析,聚类分析和多维尺度分析等提供信息,以帮助了解复杂数据的内在结构,为进一步分析打下基础,因此距离相关分析通常不单独使用,所以其分析结果不会给出显著性值,而只是给出各个案或各观测值之间的距离大小,再由研究者自行判断其相似或不相似程度。
距离相关分析根据统计量的不同,可分为两种情况:
非相似性测量:计算个案或变量值之间的距离。其数值越大,表示相似性程度越弱。
相似性测量:计算个案或变量值之间的Pearson相关系数或Cosine相关,取值范围为-1~+1,其数值越大,表示相似程度越高。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27