
大数据真如你所想吗
应该如何理解大数据
最初接触大数据这个概念是在2013年,当时市面上正在热销一个外国人写的《大数据时代》,我还同时参加了这本书的主题分享。关于大数据这一概念并没有一个确切的具体指向。它被用来描述大量貌似并不相关的不同类型数据的集合。大数据的功能之一是用来进行辅助决策。以前因为成本与技术的原因分析师获得的总是很小的样本,样本数量的大小和随机性,非常关键。数据的选择不能掺杂任何人为的因素,这些人为的因素通常会使结果变得很主观,同时也就失去了意义。这就意味着模型需要建得非常好,否则最终的结果就没有价值,甚至适得其反。
大数据同时还可以解释为那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。但是对于“大”的尺度确没有确切的定义,早在1980年代,美国就有人提出了“大数据”的概念。30多年来,各个领域的数据量都在迅猛增长,美国的企业界、学术界也不断地对这个现象及其意义进行探讨,“大数据”这个名词变得越来越流行、越来越重要,最后成为了国家和政府层面的发展战略。
在今年5月26日2015贵阳国际大数据产业博览会上国务院总理李克强指出:“中国正在研究制定’互联网+’行动计划,推动各行各业依托大数据创新商业模式,实现融合发展,推动提升政府科学决策和管理水平,用新的思路和工具解决交通、医疗、教育等公共问题……”由此大数据在我国也被上升到了国家层面。举两个在交通、医疗方面的例子:
在巴西,航空流量在过去的10年中增长迅速,预计每年的旅客数量到2030年将增长一倍还多,达到3.1亿人次。可以预见到的天空中的拥堵问题日渐受到关注。为应对这一问题,巴西开始导入GPS数据系统优化可供使用的航线,减少长短途航线间的冲突。以前的做法是飞机排成一列等待降落,使用新系统后,每架飞机首先注册自己的航道。每架飞机的位置,速度,和载荷能力,需要在最短的航道内进行及时精确的处理。这样飞机就可以沿着“曲线”更加靠近机场。在巴西利亚机场首次使用这套系统后,每架着陆的飞机平均节省了7分半钟和77加仑的燃油,同时平均少飞了22海里。巴西计划在全国的10家最繁忙的机场部署这套系统。据初步估计这套系统可以使机场的运力提升16%到59%,根据机场的实际条件有所不同。
医疗方面,互联网巨头谷歌公司在《自然》杂志上发表过一篇引人注目的论文,文中介绍了谷歌为什么能够预测冬季流感的传播。谷歌保存了多年来所有的搜索记录,并且每天都会收到来自全球超过30亿条的搜索指令,他们建立了一个关注特定检索词条的频繁使用与流感在时间和空间上的传播之间的联系。他们的软件发现了45条检索词条的组合,一旦将它们用于一个数学模型,他们的预测与官方数据的相关性就高达97%。
大数据的应用还存在着一些难解的问题
大数据虽然看上去很美,但是现实中的进展依旧缓慢。在机场行业中,人们充满了对使用大数据的热情,但是现实的阻碍重重一时又找不到理想的解决办法。
首先,缺乏透明度。交通基础设施包括了复杂的网络和众多的参与者。拿机场举例,不同的航空公司,地面处理公司,和零售商,再加上空管,乘客,和机场自己。每一方都在收集各自的数据,并且不愿意拿出来公开,这就有点像搞零售的人不愿意告诉别人仓库在哪儿。但是如果能够跟踪乘客信息,将会给每一个人带来便利。举例来说,如果知道了脚步的分布情况,和移动情况,就可以优化舱门的位置。这不止可以提高机场的容量,还可以提高机场免税商品的零售收入。而实现的前提条件,就是所有的数据要整合到一起。
其次,如何分配利润并且均摊成本,不同的机构分享数据的目的总是不同的。航空公司需要的是更快的登机速度——这可以通过缩短登机距离来实现。但是机场商店则希望增加距离来提高机场商品的销售。机场可能比较倾向于设施的便利性,但是同时也会要求灵活性,以便有什么突发事件后能够快速恢复原状。这些合起来想找到一个解决办法,所有的参与其中的各方都各取所需,并不是一个简单的任务。这需要一定程度的密切配合与信任,不容掺假。
最后,监管限制。基础设施在某种程度上,是天然的垄断行业。政府在其中扮演了无可取代的作用,确保运作的公平与低成本,并且也是唯一有可能收集并使用这些数据的,政府代表了公信力。但是这一切的前提是相关部门必须首先要被说服,接下来还必须说明什么样的数据会被采集,如何使用,并且从这些数据的有效使用中最终的好处是什么。
谷歌预测流感的事例同样存疑,大数据概念通常意味着所有数据的毫无主观色彩的一般性。但是,不能掺杂人为因素在实际操作过程中,几乎是不可能实现的,人在证明某样东西的时候往往带有一定的目的性,而且完全脱离了人为假设的试验本身也是不可想象的,最终面对的只是一堆毫无意义的数据垃圾。文章来源:CDA数据分析师官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14AI 浪潮下的生存与进阶: CDA数据分析师—开启新时代职业生涯的钥匙(深度研究报告、发展指导白皮书) 发布机构:CDA数据科 ...
2025-07-13LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-11数据透视表中两列相乘合计的实用指南 在数据分析的日常工作中,数据透视表凭借其强大的数据汇总和分析功能,成为了 Excel 用户 ...
2025-07-11尊敬的考生: 您好! 我们诚挚通知您,CDA Level I和 Level II考试大纲将于 2025年7月25日 实施重大更新。 此次更新旨在确保认 ...
2025-07-10BI 大数据分析师:连接数据与业务的价值转化者 在大数据与商业智能(Business Intelligence,简称 BI)深度融合的时代,BI ...
2025-07-10SQL 在预测分析中的应用:从数据查询到趋势预判 在数据驱动决策的时代,预测分析作为挖掘数据潜在价值的核心手段,正被广泛 ...
2025-07-10数据查询结束后:分析师的收尾工作与价值深化 在数据分析的全流程中,“query end”(查询结束)并非工作的终点,而是将数 ...
2025-07-10CDA 数据分析师考试:从报考到取证的全攻略 在数字经济蓬勃发展的今天,数据分析师已成为各行业争抢的核心人才,而 CDA(Certi ...
2025-07-09【CDA干货】单样本趋势性检验:捕捉数据背后的时间轨迹 在数据分析的版图中,单样本趋势性检验如同一位耐心的侦探,专注于从单 ...
2025-07-09year_month数据类型:时间维度的精准切片 在数据的世界里,时间是最不可或缺的维度之一,而year_month数据类型就像一把精准 ...
2025-07-09CDA 备考干货:Python 在数据分析中的核心应用与实战技巧 在 CDA 数据分析师认证考试中,Python 作为数据处理与分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的有力工具 在数据分析的广袤领域中,准确捕捉数据的趋势变化以及识别 ...
2025-07-08备战 CDA 数据分析师考试:需要多久?如何规划? CDA(Certified Data Analyst)数据分析师认证作为国内权威的数据分析能力认证 ...
2025-07-08LSTM 输出不确定的成因、影响与应对策略 长短期记忆网络(LSTM)作为循环神经网络(RNN)的一种变体,凭借独特的门控机制,在 ...
2025-07-07统计学方法在市场调研数据中的深度应用 市场调研是企业洞察市场动态、了解消费者需求的重要途径,而统计学方法则是市场调研数 ...
2025-07-07CDA数据分析师证书考试全攻略 在数字化浪潮席卷全球的当下,数据已成为企业决策、行业发展的核心驱动力,数据分析师也因此成为 ...
2025-07-07