数据可视化知识贴③：错综复杂散点图-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读数据可视化知识贴③：错综复杂散点图

数据可视化知识贴③：错综复杂散点图

2015-05-17

数据可视化知识贴③：错综复杂散点图

散点图，如果学过我们前面创意图表系列的话，这种图表应该非常熟悉了。

散点图，在图表界有万表之王的称号。

这可不是我随便封的。

美国权威心理学专刊《Journal of the History of the Behavioral Sciences》（行为科学史杂志）在2005年一篇论文中如此评价散点图：

“most versatile, polymorphic, and generally useful invention in the history of statistical graphics”这是信息图表史上功能最多，形式多样，应用范围极为广阔的一个伟大发明！

散点图能获此评价，绝对不是吹出来的。

正如它的名字一样，散点图，可以一堆纷乱如麻，看似无迹可寻的数据显示出内在的关系逻辑来。

散点图已经不仅仅是一个图表了，它已经演化为一个强大的分析工具，可以这么说，散点图，就是为大数据而生的！

下面，还是让我们一起回顾一下散点图的前世今生吧。

认识散点图

散点图，是绘制在X轴和Y轴坐标系中，可以同时表述两个变量的一组数据点。这些大量的数据点组合在一起，形成了一些形状，揭示了数据背后的相关信息。大数据

在这个散点图中，就揭示了不同系列的产品中，销售量与产品收入之间的关系模式。

散点图溯源

说起散点图的来由，如果你读过我们启视录系列前面几篇的话，一定会想到一个名字：William Playfair。这是信息图史上一个神一般的存在，他将折线图、饼图还有条状图带到了我们这个世界上。

可是，这一次你猜错了。

散点图不是普莱费尔发明的。

事实上，散点图的出现如同它的名字一样，散乱不堪，无法理出一个有序的线索出来。

其实，对于散点数据的的视觉化应用，由来已久。好几百年以来，人们一直将这些点放置在地图，或者笛卡尔坐标系中。后来人们逐渐意识到，当这些数据以不同参数，放置在直角坐标系中，很多不为人知的故事会偷偷地浮现出来。于是，散点图逐渐开始流传开来。

所以只能这么说，散点图，是广大数据民工在长期的生产实践中，通过不断的探索和研究，最终发明出来的。

而William Playfair爵士之所以会与这个伟大的发明擦肩而过，主要是因为，他发明的图表都是基于时间序列的，而散点图却不再拘泥于时间这个基本的变量。

散点图从一开始的默默无闻，到最后轰动科学界，直到最后加冕图表之王，其实也就是百十年的事。但是通过散点图带来的很多伟大的发现，则彻底改变了我们的世界观，推动了科学的发展。

1905年，丹麦科学家Danish astronomer Ejnar Hertzprung，在将一些恒星的亮度等级（绝对亮度}和他们的颜色（按光谱从蓝白到红色排列）进行对比的时候，他注意到这其中似乎有着某些相关性。但是他一直没有找到其中的奥秘。

直到1913年，美国天文学家Henry Norris Russell独立发表论文，阐述了这个改变我们认知宇宙的新发现。大数据

没错，正是通过散点图，他将恒星的按光谱和亮度两个参数进行排列分析后发现，从高亮度低光谱（左上）到低亮度高光谱（右下）形成了一条明显的趋势线，而在左上角，还有一团比较密集的数据。

Henry意识到，这条趋势线，或许正揭示了恒星从蓝白色的新星到红色的老星的一个演变的过程，也就是说，他发现了恒星一生的秘密。而左上角的那些数据，则是由一些暮年的红巨星所集合而成。

这就是后来我们所熟知的恒星的一生：原恒星—-主序星—-红巨星—-白矮星—-黑矮星

这是重新绘制的由2200颗恒星数据所组成的Henry Norris Russell散点图，我们的太阳目前大致位于光序1（竖轴）色谱1.0左右的位置上，主序星阶段，正值壮年！

散点图的应用

显而易见，散点图是一种应用非常广泛的图表，而且具有其他图表所没有的独特优势。

不像其他图表的单一特性，散点图不光可以显示趋势，还能显示集群的形状，以及在数据云团中各数据点的关系——这在大数据应用中是极为重要的一点。

无论是探寻肺活量与自由潜水的深度的关系，还是研究地震强度与持续时间之间的关联，或者对比不同部门利润与支出的数据，我们都可以用散点图来进行不同方位解读。

下面就是散点图所经常表现出来的几种趋势：

正相关
负相关
无关
线性相关
指数相关
离群值

这里要注意的是，并不是所有的相关关系都是简单的因果关系，要注意其他变量的存在以及对数据的影响。

散点图的最佳设计应用

对于散点图，我们现在已经有了大致的一些了解，现在让我们来看看散点图设计中的一些基本原则吧

Y轴从0开始

这个应该是我们反复强调的了，Y轴从非零开始的话会截断数据，造成误读。

包含多重变量

通过改变数据点的大小和颜色，来表示数据值的区别

添加趋势线

趋势线可以用来显示数据变化的趋势

不要添加两条以上的趋势线

太多趋势线，反而搅乱视线。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

散点图大数据条状图折线图数据可视化

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数据可视化知识贴③：错综复杂散点图

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载