采集和分析大数据时所面临的问题-CDA数据分析师官网

热线电话：13121318867

采集和分析大数据时所面临的问题

2016-08-15

采集和分析大数据时所面临的问题

你或许很熟悉这样一个统计结论：世界90%的数据是过去几年里产生的。事实上，过去三十年中，全世界的数据量大约每两年增加10倍——远远超过了计算机领域的摩尔定律。

采集和分析大数据时所面临的问题

这样的信息增长速率会带来一些问题，其中之一便是现时的数据量总是远远超过即使最近的过去。想象你正在通过一本相片簿回顾人生的头18年，假设在两岁时你有两张照片，如果信息增长速率与世界数据量相同，那么在你6到8岁时，你会有惊人的2000张照片；10到12岁时有20万张照片；而在16到18岁时，照片数量会达到2亿张，相当于在最后两年中，每秒有3张以上的照片。

当然，这并非是全球数据增长情况的完美类比。首先，世界大部分数据的增长源于有更多的人创造出了更多的信息来源，同时伴随更大、更精细的格式。不过，有关比例的观点还是成立的。如果你像前述的例子那样回顾以往的记录，或者试图进行分析，那距离越久远的过去就会变得越无关紧要。

这就是目前采集和分析大数据时所面临的问题。当你开始以更长远的视角往前回溯时，会发现近期的事情太多，而以前的事情太少。短视是结构性的，对短期趋势的过度估计是压倒性的，同时却忽略了历史的经验教训。

为了理解这个问题的重要性，需要考虑社会科学中有关“近期偏差”（recency bias，又称近因效应）的研究发现。近期偏差是指在判断趋势时，认为未来事件与近期体验更加类似。这可以说是某种“可利用性法则”（availability heuristic） ——不恰当地以最容易被知觉到的信息来作为思考的基础。这还是一种普遍的心理学特征。举例来说，如果在你居住的地方，过去几年中夏季都异乎寻常地寒冷，你可能会认为夏天正在变得更冷——或者说你当地的气候正在变冷。事实上，你不应当把任何东西都塞到数据里分析。你需要有一个长远的视角，才能认识真正有意义的气候趋势。在短时期内，你最好不进行任何猜测。不过，我们之中又有谁能真正做到这点呢？

现实生活中大部分复杂的趋势正是如此：股票市场、经济发展、企业的成功或失败、战争或和平、国家关系、帝国的崛起和衰落等等。短期分析不仅不够扎实，而且毫无益处甚至会带来误导。看看2009年金融危机即将到来的时候，还有那么多经济学家信誓旦旦地宣称这一事件不会发生。认为从那种时间尺度的数据就能做出扎实的预测，本身就有很大的问题。

我们还应当记住，在决定哪些数据是保存还是删除的时候，新颖性往往会成为主要的考虑因素。旧的淘汰，新的进来，在这个搜索算法本质上偏向于新鲜事物的数字世界中，这是明显的趋势。从高等法院的裁决，到所有的社交媒体服务平台上，我们到处都可以看到已经失效的网址。对当前的偏好已经渗透到我们身边几乎所有的技术中，大多数人已经习惯用个四五年就把原本光鲜亮丽的机器抛弃。

怎么办？这不仅是一个如何更好保存旧数据的问题——尽管这并不是个坏主意，想想我们现在还有什么东西能保留10年的。更重要的是，这个问题关系到确定哪些东西值得优先保存，如何在知识的名义下，确定哪些信息最有意义。

或许我们需要的是“智能遗忘”：让我们的工具变得更会放弃最近的过去，从而在整体视角上保持更大的连续性。这有点像是重新组织一本相片簿，尽管加上了更多的数学方法。什么时候两百万张照片的价值比两千张照片更低？什么时候较大的样品覆盖的范围反而较小？什么时候细节水平能提供有用的质疑证据，而不是虚假的自信？

许多数据集是无法缩减的，而且在完整的情况下才最宝贵，比如，基因序列、人口统计学数据、地理和物理学的原始观测数据等。科学性越弱，数据规模与数据的质量更可能呈现负相关，此时时间本身就成为更加重要的过滤工具。我们如果不仔细选择过去保存下来的有价值、有意义的东西，那它们就会悄无声息地淹没在如今日益增长的噪音之中。

今天的企业、个人和政府机构都能够获得比以往（甚至就在几年前）大许多数量级的数据，但这些数据并没有获得更多的处理时间。利用越来越高效的工具，董事会成员、首席执行官、政府官员等决策者可以就已有的信息提出更有意义的问题。单纯的堆积不是问题的答案。在一个数据量越来越大的时代，如何选择不知道哪些事情，与选择做什么事情一样重要。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

大数据偏差特征

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

采集和分析大数据时所面临的问题

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

采集​和分析大数据时所面临的问题

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

采集和分析大数据时所面临的问题