
大数据:分类型数据可视化方法研究报告
数据可视化可以将海量数据通过图形、表格等形式直观反映给大众。降低数据读取门槛,可以让企业通过形象化方式对自身产品进行营销。
一、数据可视化原理
数据化可视原理是综合运用计算机图形学、图像、人机交互等技术,将采集或模拟的数据映射为可识别的图形、图像、视频或者动画,并允许用户对数据进行交互分析的理论方法和技术。
数据可视化可以将不可见的现象转换为可见的图形符号,并从中发现规律从而获取知识。在实际应用中,它可以针对复杂和大规模的数据,还原增强数据中的全局结构和具体细节。
二、 可视化方法
1. 数据采集:数据是可视化对象,可以通过仪器采样,调查记录、模拟计算等方式采集。在可视化解决方案中,了解数据来源采集方法和数据属性,才能有的放矢解决问题。
2. 数据处理和变换:原始数据含有噪音和误差同时数据模式和特征往往被隐藏。通过去噪、数据清洗、提取特征等变换为用户可理解模式。
3. 可视化映射(核心):将数据的数值、空间坐标、不同位置数据间的联系等映射为可视化视觉通道的不同元素如标记、位置、形状、大小和颜色等。最终让用户通过可视化洞察数据和数据背后隐含的现象和规律。
4. 用户感知:用户感知从数据可视化结果中提取信息、知识和灵感。数据可视化可用于从数据中探索新的假设,也可严重相关假设与数据是否吻合,还可帮助专家向公众展示数据中的信息。
用户感知可以在任何时期反作用于数据的采集、处理变换以及映射过程中,如下图所示:
三、具体操作
1. 将指标值图形化
一个指标值就是一个数据,将数据的大小以图形的方式表现。比如用柱形图的长度或高度表现数据大小,这也是最常用的可视化形式。
传统的柱形图、饼图有可能会带来审美疲劳,可尝试从图形的视觉样式上进行一些创新,常用的方法就是将图形与指标的含义关联起来。
比如 Google Zeitgeist 在展现 top10 的搜索词时,展示的就是“搜索”形状的柱形,图形与指标的含义相吻合,同时也做了立体的视觉变化:
2. 将指标图形化
一般用在与指标含义相近的 icon 来表现,使用场景也比较多,如下:
3. 将指标关系图形化
当存在多个指标时,为了挖掘指标之间的关系并将其进行图形化表达,可提升图表的可视化深度。常见有以下两种方式:
借助已有的场景来表现
联想自然或社会中有无场景与指标关系类似,然后借助此场景来表现。
比如百度统计流量研究院操作系统的分布(上图),首先分为 windows、mac 还有其他操作系统, windows 又包含 xp、2003、7等多种子系统。
宇宙星系中也有类似的关系: 宇宙中有很多星系,我们最为熟悉的是太阳系,太阳系中又包括各个行星。根据这种关系联想,图表整体借用宇宙星系的场景,将熟知的Windows比喻成太阳系,将XP、Window7等系统比喻成太阳系中的行星,将Mac和其他系统比喻成其他星系。
构建场景来表现
指标之间往往具有一些关联特征,如从简单到复杂、从低级到高级、从前到后等等。如无法找到已存在的对应场景,也可构建场景。
比如百度统计流量研究院中的学历分布:指标分别是小学、初中、高中、本科等等。
各个类目之间是一种阶梯式的关系,因此,平台就设计了一个阶梯式的图直观的反映出了数据呈阶梯式递进的趋势。
再比如:支付宝年初出的个人年度账单中,在描述付款最多的三项时设计了一个类似颁奖台的样式也很出彩:(然而并没有觉得我在哪个类目买买买付款最多有什么骄傲的)
下方图示为供参考的线性化过程,实际可视化思考中,将哪类元素进行图形化或者图形化前后的顺序可能均有不同,需根据具体情况处理。
4. 将时间和空间可视化
时间
通过时间的维度来查看指标值的变化情况,一般通过增加时间轴的形式,也就是常见的趋势图。
空间
当图表存在地域信息并且需要突出表现的时候,可用地图将空间可视化,地图作为主背景呈现所有信息点。
Google Zeitgeist 在 2010 和 2012 年的年度热门回顾中,都是以地图为主要载体(同时也结合了时间),来呈现热门事件:
5. 将数据进行概念转换
先看下生活中的概念转换,当我们需要喝水时,通常会说给我来杯水而不是给我来500ml 的水。要注意来(一)杯水,是具象的,并不是用量化的数据来形容。在这里,500ml就是一个具体的数据,但是它难以被感知,所以用(一)杯的概念来转换。
同样在数据可视化,有时需要对数据进行概念转换。这是为了加深用户对数据的感知,常用方法有对比和比喻。感知就是一个将数据由抽象转化为具象的过程。
对比
比如下图就是一个介绍中国烟民数量的图表。如果只看左半部分中国烟民的数量:32000000(个十百千万十万百万千万亿…)好吧数据量级很大,不论是数零还是数逗号都很容易数错,而且具体这个数字有多大仍然很难感知。让我们目光向右移动,来看右半部分:中国烟民数量超过了美国人口总和,太恐怖了。这样一对比,对数据的感知就加深了。
比喻
下图是一个介绍雅虎邮箱处理数据量大小的图表,大概就是说它每小时处理的电子邮件有近1.2TB,相当于644245094 张打印的纸。
上面这个翻译很无聊是不是,但这并不是问题的重点,这个数它到底有多大呢? 文案中用了一个比喻的手法:大意就是将这些邮件打印出来首尾相连可以绕地球4圈。嗯,比香飘飘奶瓶还多3圈。到这里,我相信大家肯定能初步感受到雅虎邮箱每天处理的数据量有多大了吧,而且还没有被打印出来,为地球节省了很多纸(假装环保)。
6.让图表“动”起来
数据图形化完成后,可结合实际情况,将其变为动态化和可操控性的图表,用户在操控过程中能更好地感知数据的变化过程,提升体验。
实现动态化通常以下两种方式: 交互和动画。
交互
交互包括鼠标浮动、点击、多图表时的联动响应等等。下面是百度统计流量研究院的时间分布图,该分布图采用左图右表的联动形式,左图中鼠标浮动则显示对应数据,点击则可以切换选择:
动画
动画包括入场动画、交互过程的动画和播放动画等等。
入场动画:即在页面载入后,给图表一个“生长”的过程,取代“数据载入中”这样的提示文字。
交互动画:用户发生交互行为后,通过动画形式给以及时反馈。
播放动画:通俗的来说就是提供播放功能,让用户能够完整看到数据随时间变化的过程。下图是 Gapminder 在描述多维数据时,提供随时间播放的功能,可以直观感受到所有数据的变化。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28