简单5步了解相关矩阵的注释热图-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读简单5步了解相关矩阵的注释热图

简单5步了解相关矩阵的注释热图

2019-09-29

作者 | Julia Kho

编译 | CDA数据分析师

Annotated Heatmaps of a Correlation Matrix in 5 Simple Steps

热图是数据的图形表示，也就是说，它使用颜色来向读者传达价值。当您拥有大量数据时，这是一个很好的工具，可以帮助观众了解最重要的区域。

在本文中，我将指导您通过5个简单步骤创建自己的相关矩阵注释热图。

导入数据
创建关联矩阵
设置mask隐藏上三角
在Seaborn中创建热图
导出热图

1）导入数据

df = pd.read_csv("Highway1.csv"，index_col = 0)

该公路事故数据集包含汽车事故率，每百万车辆英里的事故以及若干设计变量。

2）创建相关矩阵

corr_matrix = df.corr()

我们使用的是.corr 创建相关矩阵。请注意，此矩阵中不存在htype列，因为它不是数字。我们需要使用htype来计算相关性。

df_dummy = pd.get_dummies(df.htype)

df = pd.concat([df，df_dummy]，axis = 1)

另外，请注意，相关矩阵的上三角部分与下三角对称。因此，我们的热图不需要显示整个矩阵。我们将在下一步隐藏上三角形。

3）设置mask隐藏上三角

mask = np.zeros_like(corr_matrix，dtype = np.bool)

mask[np.triu_indices_from(mask)] =True

让我们打破上面的代码吧。 np.zeros_like() 返回一个零数组，其形状和类型与给定的数组相同。通过传递相关矩阵，我们得到如下的零数组。

该 dtype=np.bool 参数会覆盖数据类型，因此我们的数组是一个布尔数组。

np.triu_indices_from(mask) 返回数组上三角形的索引。

现在，我们将上三角形设置为True。 mask[np.triu_indices_from(mask)]= True

现在，我们有一个掩码可以用来生成热图。

4）在Seaborn中创建热图

f，ax = plt.subplots(figsize =(11,15))

heatmap=sns.heatmap(corr_matrix,

mask = mask,

square = True,

linewidths = .5,

cmap ='coolwarm',

cbar_kws = {'shrink':.4,

'ticks':[-1,-.5,0,0.5,1]},

vmin = -1,

vmax = 1,

annot = True,

annot_kws = {"size":12})

#增加列名做为标签

ax.set_yticklabels(corr_matrix.columns，rotation = 0)

ax.set_xticklabels(corr_matrix.columns)

sns.set_style({'xtick.bottom':True},{'ytick.left':True})

为了创建我们的热图，我们传递步骤3中的相关矩阵和我们在步骤4中创建的蒙版以及自定义参数，以使我们的热图看起来更好。如果您有兴趣了解每条线的作用，请参考以下参数说明。

#使每个单元格成方形

square = True,

#设置将每个单元格划分为.5的行的宽度

linewidths = .5,

#Map数据值到coolwarm颜色空间

cmap ='coolwarm',

#Shrink在[-1，-.5,0,0.5,1]处的图例大小和标签刻度线

cbar_kws = {'shrink':.4,'ticks':[-1，-.5,0,0.5,1]},

#设置颜色条的最小值

vmin = -1,

#设置颜色条的最大值

vmax = 1,

#转到相关值的注释

annot = True,

#将注释设置为12

annot_kws = {"size":12}

#将列名添加到x标签

ax.set_xticklabels(corr_matrix.columns)

#将列名添加到y标签并将文本旋转到0度

ax.set_yticklabels(corr_matrix.columns,rotation = 0)

#在热图的底部和左侧显示标记

sns.set_style({'xtick.bottom':True},{'ytick.left':True})

5）导出热图现在你有热图，让我们把它导出。

heatmap.get_figure().savefig('heatmap.png', bbox_inches='tight')

如果您发现有一个非常大的热图不能正确导出，请使用bbox_inches = 'tight' 以防止图像被切断。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇powerBI 和 tableau 的对比与选择

下一篇2019年中国AI人工智能&大数据人才就业趋势报告

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

简单5步了解相关矩阵的注释热图

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载