京公网安备 11010802034615号
经营许可证编号:京B2-20210330
可视分析技术已经发展了近十年。在这些年间,人们研究了大量的可视分析方法和案例,发表了不少研究论文。然而,对于一些基本问题,人们依然没有明确的答案。例如,一个基本的可视分析流程是怎样的?一个可视分析系统应该包含哪几个组件?如何评价和比较不同的可视分析系统?在VAST’2014的一篇论文中[1],Sacha等人提出了一个可视分析模型,系统性的回答了以上问题。
如图1所示,他们的模型包含左边计算机的部分和右边人的部分。在计算机部分中,数据被绘制为可视化图表,同时也通过模型进行整理和挖掘。可视化图表既可以显示原始数据的特性,也可以显示模型的结果。用户也可以基于可视化图表来对模型进行调整,指导建模过程。在人的部分中,作者提出了三层循环:探索循环、验证循环和知识产生循环。在探索循环中,人们通过模型输出和可视化图表寻找数据中可能存在的模式,基于此采取一系列行动,例如改变参数,去产生得到新的模型输出和新的可视化图表。这样做的动机在验证循环之中:人们通过模式洞察到数据的特点,产生可能的猜测。这些猜测的验证正是基于探索循环中的行动。最后,在验证循环之上有知识循环,不断的收集验证循环中已被验证的猜测,总结为知识。
说明
图 1. 可视分析中的知识产生模型
本模型的提出是建立在已有的各种模型的基础之上的,如图2所示。例如,之前的信息可视化流程图描述了如何从数据产生可视化图表,数据挖掘流程图则描述了如何对数据进行预处理和建模并最终得到分析结果。之前的交互步骤模型描述了人在分析过程中的评价、目标产生和执行步骤,意义构建模型则描述了人在整个分析过程中对问题理解的加深。它们在本模型中被分解为三层循环。此外,众多的交互词汇系统的描述了探索循环中的行为。
图 2. 本模型和已有模型之间的关系
作者利用本模型对一些实际的可视分析系统进行了评价和比较,如图3所示。Jigsaw是一款免费的文本可视分析系统[2],它可以读入文本数据,自动提取实体,建立主题模型,因此强于建模。此外,它提供了一系列可视化图表来显示文本的各种特征,因此也强于可视化。它的许多可视化,例如文件聚类视图,是基于主题模型的,因此可以算是对模型的可视化。用户可以在多种视图之间切换,改变各种视觉特性,因此它很好的支持了探索循环。此外,它还提供了tablet视图,允许用户记录自己的发现,并整理归类,提供了一定的验证循环支持。然而,Jigsaw不支持对原始数据预处理,也不太支持模型参数选择。
Weka是一款免费的数据挖掘系统 [3],它允许用户对数据进行一系列的预处理,例如数据删除、离散化、文本分词等等,同时支持大量的数据挖掘算法,涵盖了各种分类、聚类、关联规则挖掘模型。但是该系统支持的可视化相当有限,例如显示散点图矩阵,或者显示决策树结果、显示神经网络结构。另外,用户探索仅限于更换预处理方法和更换模型,功能较为简单。用户无法整理自己的发现,因此该系统对验证循环的支持并不好。
Tableau是一款商业化的可视化系统 [4],它允许用户通过漂亮的UI来预处理数据,通过简单的拖拽来设计各种可视化图表。但是一直以来,它支持的模型很有限,直到今年,Tableau支持了R语言,它才真正用于建模功能。Tableua支持灵活的数据探索。它还支持spreadsheet和storyboard等强大的功能,可以生成MLV视图和类似powerpoint的演示界面。这些都是对验证循环的支持。
nSpace是一款商业化的文本分析系统 [5],虽然它对数据预处理和数学模型的支持很弱,但是它提供了多种可视化图表显示数据的不同特征。这些图表可以较好的支持数据探索循环。最为与众不同的是,nSpace提供了sandbox界面用于组织用户的发现,并生成结果报告。该功能比Jigsaw的tablet和Tableau的storyboard更为强大,能较好的支持验证循环。
图 3.利用本模型对不同的可视分析系统进行评价和比较。
作者也谈到,本模型具有一些局限性,
比如未考虑多个分析人员之间的协作与交流,未考虑不同可视分析系统之间的切换,未考虑分析人员和领域专家、政府官员之间的沟通,未考虑动态变化的流数据。这些问题可以进一步研究。
基于此模型,作者展望了未来可视分析的研究方向。例如,在探索循环中,研究者可以更多的考虑通过可视化与数学模型进行交互的技术,也可以考虑如何引导用户快速系统的发现数据中的模式,或者如何自动检测模式。在验证循环中,研究者可以如何保存之间的探索结果,以方便回溯,验证其可靠性。研究者可以考虑如何组织不同的探索结果,辅助用户产生假设,甚至自动产生假设。在知识发现循环中,研究者可以做的比较少。毕竟,知识发现只在人脑中。但研究者可以提供更多更方便的可视化视图和数学模型,方便用户从多个角度考虑同一个数据、同一个问题。这样,也许用户更容易最终得到有用的知识。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12