京公网安备 11010802034615号
经营许可证编号:京B2-20210330
本文由有CDA数据分析师小编整理自中国传媒大学电视与新闻学院教授沈浩在“2015年中国数据分析师行业峰会”的演讲,如需转载请注明出处
今天我演讲的题目是“发现数据可视化之美”,前一段时间我写过一本书,里面有这样一段话,我说这是一个让我们兴奋的时代,数据科学让我们越来越多地从数据中观察到人类社会的复杂行为模式,以数据为基础的技术决定着人类的未来,但并非是数据本身改变了我们的世界,起决定作用的是我们可用的知识。《大数据时代》这本书,核心观点是说大数据是工作、生活和思维方式的改变。
这是一个非常有名的一张图片,这张图片后面是全球的世界地图。当有人发一个推特的时候它就有一个点,当越来越多的点出来以后,我们立刻就感知了,好像中国这块一片黑,说明我们中国人不怎么用推特。
其实人是一种视觉动物,去感知世界。脸书(Facebook)的一个实习生,用R语言制作了脸书如何掌控地球这样一个程序,我们一眼就可以看出来人们在社交网络上产生的各种沟通效果。我们所面对的大数据时代是一种社会科学,是跟人有关的事情,在我们这儿有一句话,除了上帝所有人都应该用数据说话。
怎么用数据说话?可视化是很重要的用数据说话的方式,这种说话最典型的就是你看得见才能做得到,才能做得好。数据可视化到底是什么?我们到底应该站在什么位置?如果我们从狭义的角度讲,数据可视化其实还有信息可视化,还有交互可视化。对于数据、统计包括数据分析,我们一直强调应该有计算机科学,也要有有新媒体,特别是艺术设计这样的一种思维方式,这方面我特别赞成吴(喜之)老师说的泛,泛编程能力。
我是数据分析师,但是当我面对很多文科领域的人他看不懂,老让我去开会,但是我又没时间,我是不是做个什么东西,让我不去教你就能看得懂呢?所以我经常说一句话,形式要大于内容。后面这句话是有的,就是在有内容的情况下,形式大于内容。
那怎么让形式大于内容呢?很多领域都有可视化,比如数据可视化、地理可视化、城市可视化,现在还有新闻可视化,什么都可以可视化。可视化是要让别人看得懂。所以我建议把企业的数据转化成的仪表盘,大家都会开车,但是看的是仪表盘,背后是一张报表,如果不给你仪表盘,给你报表你会开车吗,够呛。所以在这里如何给管理者、决策者最好的。
早期这个报表是动的,这个报表如果这么看,我衣服怎么样,我收入就是怎么样。
所以那个时候我做了很多经典的所谓的移动模型,说如果质量价格比怎么样,你发现它动了。这个东西对别人的感觉来讲是不一样的。特别是对使用者,所以这时候它不光看到了模型,还可以回答问题,包括我们做收视率分析的时候,我们可以用仪表盘的方式呈现数据的变化,特别是用这样的一些模式去感知不同数据的变化。
实际上这是曾经机场上搞不清楚航班延误怎么样,其实都有,但是它没法儿分散,所以做了一个所谓的动态显示屏。这个显示屏我们可以看到不同的汽车,包括预警,这些如果你归纳起来,它是早期的可视化,或者叫前端展示。我们叫商业智能。
你会发现,我们过去的分析已经变成了一种思维模式,是一种心理的模式,这种模式是什么呢?你发现到今天对可视化不是在PPT上演示了,甚至PPT也不能演示了像我们看到很多词语,当然这个词语需要我们从网上抓取作出完全个性化的词语。甚至我们做一些主题的归类,我们会发现这东西好像以前都没有,当然现在它们也在做所谓的文本挖掘,对其他领域,特别是对关系领域的挖掘。
做数据分析的人最常知道的一个工具是什么呢?一个叫汉斯的人,他做了这样一个产品,他就是不同的散点的图,只不过在这样的散点图中以非常明确直观的方式让我们感知到了数据的变化,让我们看到了它的痕迹,数据是动态的。
这个动态需要我们去寻找时间序列,包括我们看到时间序列,重大数据集的变化,这个变化通过传统的散点图也需要不断感知。这个散点图到底在哪儿,我们需要标记什么。这个时候我们需要一个更好的方式,所以有人就看到,在今天的可视化,特别是在在线层面,需要解决一个在线的动态可视化,而这个可视化可以选择。
其实随着技术的发展我们越来越看到,这种在线的、动态的,以及直接在线制作的,甚至制作完图,我们再去看代码。大家知道Excel先用数据再去做图,现在有一种新的趋势,就是先做出图来,然后再看我的数据哪儿有问题。所以是先看图在看数据的趋势。所以我们需要知道这些的数据到底怎么样,它的位置,标签等等的情况,当然我们也需要实时的。
我需要说在李克强答中外记者问的时候,我想做一个实时的展示舆情,在微博上抓来数据,把这些数据分词,让这些分词抓到主旨模型。同时这个舆情就是你看到的实时舆情,这是推特的舆情,不光能看到,还能感知到数据实时的波动。所以我们经常说,到了今天,特别是大数据的时代,我们不再追求说它的统计什么样,二是更关注我看得见,我感知到这个社会脉络。
比方说像大型网络的变化,这些网络里都有谁,哪个是演员,比如说你点他,你会发现这个演员就出来了,这个演员跟谁有过交情,它会在这里显示这些东西。这是基于网络的查询而可视化。国外有一个库,你可以直接在里面说你想搜一个名人,它立刻告诉你这些名人之间的关系。
包括这种类似于大屏显示,我们需要实时在线微博上各种账号的关联,需要这种关联的过程,以及基于这种关联所看到一种统计的现象。我们需要制作各种报表,这个报表不是单一的报表,而是具有关联性的,我们会把不同的数据源,不同的报表形态聚合到同一个屏上,通过我们不断的关联,即使同源、异源都可以报数据关联起来,形成各种各样的表达形式。
包括我们看到在这个形式中各种数据的变化,甚至可以去选择,说如果怎么样,我们可以把这个数据变化,可以双击,甚至可以放大数据的点,用放大镜的方式去感知。甚至对于不同的数据情况来看,其实我们可以做各种各样的筛选,比如说可以隐藏掉它。其实在这里面我们也可以看到各种地理信息的展现,包括地图这种感知方式的呈现。这种呈现的方式是什么?就像我们可以画出整个暴风雪或者风暴的走势,然后还感知这个风暴走势的图。甚至我们可以去筛选不同的风暴现象,我是不是就关注于这条线的时候可以高量这个东西,实际上我们看到交互式的图形,可以让我们更好的洞察事物。
这种洞察我一直说是要inside出来,就像你看到这个地球,这个地球上我们可以洞察什么?其实你如果喜欢纽约的话,可以敲一个纽约,纽约9·11那两个底座,甚至车在哪儿开都可以看到。所以很重要的是我们能不能够感知到这个数据的变化。我把大数据时代分成这样四个领域。第一个叫数据科学,但是如果只分数据科学的话可能也包括文本挖掘、语意挖掘等等,除此之外还有个关系网络的挖掘,我们还涉及到空间和地理分析的事情。
如果做一个可视化的东西,就需要这样的网络的关系,我们需要追踪整个传播链的每个细节,如果有人发了一条微博,有十万条转发的时候,立刻可以抓下来,看谁在这里起什么样的作用,他的角色,他的位置,如何决定他传播的意义。
右边这个图是我做的,是一条杜蕾斯的传播,我把它抓下来以后,我们立刻就可以看到这样的传播,他们给我这张图起了个名字叫“上帝的指纹”。
其实这个东西非常重要,因为它显示了信息传播的地域分布,显示了自组织状态,显示了大V在这里起的作用,显示了信息经由桥梁传播所带来的强关系带来信任,弱关系带来信息的特色,特别是地域。因为我们的统计都讲震撼,但是我们现在更多的应该普及幂律,特别是有一句话,尽管我不知道该怎么证明。但是有人说自然科学往往震撼,社会科学往往服从幂律。幂律就像我们今天看到的数据一样,实际上大量的数据都是波尾的幂律分布和规则,那如何从这里洞察呢?如何通过可视化的交互去看到每个节点的变化呢?这些都需要我们去思考。就像我拿到移动的你们跟机站握手的数据的时候,其实我就可以算出谁落在二环内,谁落在二、三环之间。
其实如果逻辑上通,其实我是有所有的包括企业链的数据的,这些所谓的多边形的数据,谁落在企业链里,只要有数据的传感器或者摄象头能够感知到,其实我是可以建立一种统计新的思想的,就像你今天嘀嘀打车,告诉你这周边是什么样的。所以从这个概念上来讲,空间地理数据分析又成为大数据很重要的东西,而空间地理具有天生的可视化性质。所以如何制作各种基于地图的这样的图表,成为我们很重要的事情。比如说我们能不能把北京市所有的垃圾筒都标识出来,能不能把所有人的行为表现出来,而这些东西我们不问为什么,我们就看到是什么,然后去采取行动。所以从这点上来讲,就像我拿到了整个北京市的交通线路,甚至每一个公交汽车站,那么这些数据为了保证时间所以我没做成在线的。其实你可以做成在线的,一点就知道它周边是什么样的,如果我们再努力做的话,其实我们可以把街景地图跟谷歌联系起来。你可以形成这种统计,这时候他会看到这种结果,而这种结果不光是说我们看到数据科学、网络科学、空间地理科学。
如果我们单独把数据可视化当成一门技术,其实就是分析,如果我们能够把社会、生活、人的关系他的地理位置如果融在一起,并且让我们看得见,我们会发现数据可视化其实它是一种数据分析,但是它也是一种叙事手段,当然我更愿意说它也是一种批判思维。为什么?
过去的统计做出来的都是硕士、博士论文,别人看不懂。当然当它可视化出来的时候,像百度做的那个,普通大众都能看得懂。这是可视化的很重要的思维方式。当然只有可视化才有批判的资格,否则您来批评我都不会批评,因为您看不懂。所以从这个角度来讲,对于我们数据分析师来讲,我赞成它的广泛性,我赞成与其他学科的融合性。但是毕竟我们要学很多工具,你必须要学很多技术。
我一直说这么一句话,叫工欲善其事,必先利其器。在这里我特别强调工具的重要性的价值,所以我会给出一个工具上的变化。比方说我们应该有一个工具的包,如何去做呢?比方说像卡托BB,B3.GS,还提到了语言,其实我们知道现在很多语言都非常的简化,甚至说了不要重头编,基本都是模仿。如果看到这张图不错,可以立马把它调出来。
我们如果想学好可视化技术,除了R语言等等之外,还需要所谓的分布式计算,云计算的能力,其实还要有你要上网,因为现在远程的终端的访问,这种基于DS架构,形成我们可视化以及派发我们信息的一个很重要的方式,因为从数据变成信息,信息变成知识,知识最终还要传播出去,只有传播了你才能形成群体的智慧。所以从这点来讲我们还需要HTML等方面的技术,使得它交互的动态去展示更复杂,更加眩的可视化的作品。
所以可视化在今天不仅仅是可视化了,我今年的本科生已经开始招数据性的专业,实际上这是大数据和新闻学的融合。在十年前我们所在的统计和我们新闻传播的融合,我们成立了媒体室调查,今天数据新闻其实就是强调可视化,而这个可视化,不是培养数据科学家,我培养懂新闻的数据艺术工匠。
马克思说的人根本区别就是能制造工具。实际上我们应该也要学会使用工具。对于数据分析人才来讲,我们要拥有一套泛化的编程思维,掌握R语言,能在互联网上关注于JAVASCRIPT这种在线架构,学会欣赏艺术还能模仿艺术,然后呈现出决策者能够看懂的可视化效果。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14