热线电话：13121318867

将全球所有人发的推文进行数据可视化，看看大家都在说些什么…

2021-05-31

将全球所有人发的推文进行<a href='/map/shujukeshihua/' style='color:#000;font-size:inherit;'>数据可视化</a>，看看大家都在说些什么…

CDA数据分析师出品

编译：Mika

【导读】

每天在推特上都有数百万条推文被发送，在这些推文中，我们可以收集到很多关于人们生活的信息：他们什么时候醒来，去哪里旅行，以及他们对几乎所有事情的看法。

在本文中，前纽约时报数据艺术家杰尔·索普探讨了我们可以从这些丰富的数据中得出什么用途。

几年前我开始用推特。它最吸引我的一点是人们会在早上起床的时候，会发一条推特说：“早上好！”

作为一个加拿大人，我喜欢这种问候方式。同时我也是个典型的技术男，于是我写了个程序，用来记录24小时内推特上所有发的“早上好！”。

记录一天内所有人发的“早上好”

之后我问了自己一个我最喜欢的问题，“那会是个什么样子？”

结果就像这样：

▲ 全球人们在醒来时发“早上好！”所组成的模型

我们看到这个由世界各地人们在醒来时发“早上好！”所组成的人浪。

当中绿色所代表的人，在早上8点左右醒来。

橙色代表的人，他们在9点左右发“早上好！”

之后这些红色代表的人，他们在10点左右发“早上好！”。

我们会发现，10点发的人比8点的多。

而且，事实上如果你观察这幅图，我们就能稍微了解世界各地人们起床时间的不同。

比如说西海岸的人就比东海岸的人起得稍晚一些。

从旅行打卡数据得出全球行程模型

但人们在推特上不只是发这个，对吧？

我们也收到这些推特，诸如：

“我刚刚在奥兰多降落了！！”

▲ 推文“我刚刚在奥兰多降落了！！”

或者“我刚刚降落在德州！” 又或者“我刚刚在洪都拉斯降落了！”

这些内容没完没了，总有人在发这些。

从表面上看，这些人只是告诉我们一些他们的旅行信息。

但是我们都知道真相，不是吗？

这些人就是在炫耀！炫耀他们在开普敦，而我不在！

于是我想，我们如何才能利用这些虚荣，并将其转化成实用的东西？

因此我用类似于处理“早上好”的方法，将所有人的旅行制成统计图。

因为我知道他们在哪落地，他们直接告诉我了。而且我知道他们在哪儿居住，因为他们推特的个人简介上都写着呢。

▲ 全球各地人们旅行数据模型

所以我在推特上建立了一个模型，记录在36个小时内世界各地的人是如何旅行的。

这是一种原始模型，如果我们留意推特和脸书和其它一切社交媒体上的所有人，我们其实会获得一幅清晰的图像，反映人们如何在各地之间旅行。

▲ 36小时内世界各地人们的旅行数据

而这幅图像事实上对科学家来说非常有用，尤其是那些研究疾病扩散问题的专家。

针对某个事件的讨论得出舆论模型

我在《纽约时报》工作。在过去两年里，我们一直做一个叫“Cascade”的项目，它在某种程度上和这个模型很相似。

但是我们不是对人们如何流动，而是对人们如何发表言论进行建模。我们在研究针对某个事件的讨论看起来是怎样的。

这里有一个例子，这是一场围绕一篇文章的讨论。文章名字是《那个人们忘记死亡的小岛》，它描述了一个希腊的小岛，岛上的人们都非常非常长寿。

这里我们所看到的，这是一场从左下角那第一条推特开始延伸开来的讨论。

因此我们得以了解到，在9小时里这场讨论的规模。

▲ 9小时内对文章《那个人们忘记死亡的小岛》的讨论

我们来把时间跨度拉大到12小时。我们也可以在三维的模式下观察这场讨论。

▲ 12小时内对文章《那个人们忘记死亡的小岛》的讨论

而且这种三维的视角其实对我们更加有用。因为作为人类，我们非常习惯于三维的事物。

所以我们能够看着讨论的那些细小分支，来了解到底发生了什么。

这是一个交互式的，探索式的工具。我们可以仔细研究这个讨论的每一步，可以看看：

这些都是什么人；
他们说了什么；
他们年纪多大；
他们住在哪里；
谁关注了他们等等。

《纽约时报》每个月产生大约6500篇文章，我们可以为每一篇所引发的议论都建立一个模型。

每个模型看起来不太一样，这取决于故事本身，以及它引起人们议论的速度，还有议论传播的范围。

这些结构我管它们叫“讨论大楼”，最终看起来不尽相同。

我向你们展示的这些项目，我认为它们在做同样的事情。

用碎片化数据产生更大的价值

即我们可以将碎片化的数据拼凑起来，从而产生更大的价值。我们可以用它们来做更激动人心的事情。

但是目前为止我们只提到了推特，而推特不是数据的全部。

正如刚才讨论的，网络上有很多很多很多数据。

我尤其要向你们介绍其中一种。因为你们所有人，这里的每一位观众，包括我在内都是产生数据的机器，我们时时刻刻都在产生数据。

我们每一个人，我们都在产生数据，也有一些人在储存这些数据。

通常来说，我们信任各种储存数据的公司，但是我要在这里提出的是，相比起信任那些公司，让它们储存数据，我们应该相信我们自己。

因为我们拥有那些数据，这是我们应该牢记的，他人对你的任何评价都属于你。

因此，我希望我们所有人能带着我们储存的宝贵数据走到一起，一起利用那些数据来解决某些世界上最棘手的难题。

因为大数据能解决大问题，但是我认为如果我们每个人都参与进来，才能将能使它发挥最大的效用。谢谢！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据可视化大数据数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇盘点Python加密解密模块hashlib的7种加密算法

下一篇CDA LEVEL II 数据分析认证考试模拟题库（二十七）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

将全球所有人发的推文进行数据可视化，看看大家都在说些什么…

记录一天内所有人发的“早上好”

从旅行打卡数据得出全球行程模型

针对某个事件的讨论得出舆论模型

用碎片化数据产生更大的价值

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载