京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据真如你所想吗
应该如何理解大数据
最初接触大数据这个概念是在2013年,当时市面上正在热销一个外国人写的《大数据时代》,我还同时参加了这本书的主题分享。关于大数据这一概念并没有一个确切的具体指向。它被用来描述大量貌似并不相关的不同类型数据的集合。大数据的功能之一是用来进行辅助决策。以前因为成本与技术的原因分析师获得的总是很小的样本,样本数量的大小和随机性,非常关键。数据的选择不能掺杂任何人为的因素,这些人为的因素通常会使结果变得很主观,同时也就失去了意义。这就意味着模型需要建得非常好,否则最终的结果就没有价值,甚至适得其反。
大数据同时还可以解释为那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。但是对于“大”的尺度确没有确切的定义,早在1980年代,美国就有人提出了“大数据”的概念。30多年来,各个领域的数据量都在迅猛增长,美国的企业界、学术界也不断地对这个现象及其意义进行探讨,“大数据”这个名词变得越来越流行、越来越重要,最后成为了国家和政府层面的发展战略。
在今年5月26日2015贵阳国际大数据产业博览会上国务院总理李克强指出:“中国正在研究制定’互联网+’行动计划,推动各行各业依托大数据创新商业模式,实现融合发展,推动提升政府科学决策和管理水平,用新的思路和工具解决交通、医疗、教育等公共问题……”由此大数据在我国也被上升到了国家层面。举两个在交通、医疗方面的例子:
在巴西,航空流量在过去的10年中增长迅速,预计每年的旅客数量到2030年将增长一倍还多,达到3.1亿人次。可以预见到的天空中的拥堵问题日渐受到关注。为应对这一问题,巴西开始导入GPS数据系统优化可供使用的航线,减少长短途航线间的冲突。以前的做法是飞机排成一列等待降落,使用新系统后,每架飞机首先注册自己的航道。每架飞机的位置,速度,和载荷能力,需要在最短的航道内进行及时精确的处理。这样飞机就可以沿着“曲线”更加靠近机场。在巴西利亚机场首次使用这套系统后,每架着陆的飞机平均节省了7分半钟和77加仑的燃油,同时平均少飞了22海里。巴西计划在全国的10家最繁忙的机场部署这套系统。据初步估计这套系统可以使机场的运力提升16%到59%,根据机场的实际条件有所不同。
医疗方面,互联网巨头谷歌公司在《自然》杂志上发表过一篇引人注目的论文,文中介绍了谷歌为什么能够预测冬季流感的传播。谷歌保存了多年来所有的搜索记录,并且每天都会收到来自全球超过30亿条的搜索指令,他们建立了一个关注特定检索词条的频繁使用与流感在时间和空间上的传播之间的联系。他们的软件发现了45条检索词条的组合,一旦将它们用于一个数学模型,他们的预测与官方数据的相关性就高达97%。
大数据的应用还存在着一些难解的问题
大数据虽然看上去很美,但是现实中的进展依旧缓慢。在机场行业中,人们充满了对使用大数据的热情,但是现实的阻碍重重一时又找不到理想的解决办法。
首先,缺乏透明度。交通基础设施包括了复杂的网络和众多的参与者。拿机场举例,不同的航空公司,地面处理公司,和零售商,再加上空管,乘客,和机场自己。每一方都在收集各自的数据,并且不愿意拿出来公开,这就有点像搞零售的人不愿意告诉别人仓库在哪儿。但是如果能够跟踪乘客信息,将会给每一个人带来便利。举例来说,如果知道了脚步的分布情况,和移动情况,就可以优化舱门的位置。这不止可以提高机场的容量,还可以提高机场免税商品的零售收入。而实现的前提条件,就是所有的数据要整合到一起。
其次,如何分配利润并且均摊成本,不同的机构分享数据的目的总是不同的。航空公司需要的是更快的登机速度——这可以通过缩短登机距离来实现。但是机场商店则希望增加距离来提高机场商品的销售。机场可能比较倾向于设施的便利性,但是同时也会要求灵活性,以便有什么突发事件后能够快速恢复原状。这些合起来想找到一个解决办法,所有的参与其中的各方都各取所需,并不是一个简单的任务。这需要一定程度的密切配合与信任,不容掺假。
最后,监管限制。基础设施在某种程度上,是天然的垄断行业。政府在其中扮演了无可取代的作用,确保运作的公平与低成本,并且也是唯一有可能收集并使用这些数据的,政府代表了公信力。但是这一切的前提是相关部门必须首先要被说服,接下来还必须说明什么样的数据会被采集,如何使用,并且从这些数据的有效使用中最终的好处是什么。
谷歌预测流感的事例同样存疑,大数据概念通常意味着所有数据的毫无主观色彩的一般性。但是,不能掺杂人为因素在实际操作过程中,几乎是不可能实现的,人在证明某样东西的时候往往带有一定的目的性,而且完全脱离了人为假设的试验本身也是不可想象的,最终面对的只是一堆毫无意义的数据垃圾。文章来源:CDA数据分析师官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11在CDA(Certified Data Analyst)数据分析师的实操体系中,统计基本概念是不可或缺的核心根基,更是连接原始数据与业务洞察的关 ...
2026-02-11在数字经济飞速发展的今天,数据已成为核心生产要素,渗透到企业运营、民生服务、科技研发等各个领域。从个人手机里的浏览记录、 ...
2026-02-10在数据分析、实验研究中,我们经常会遇到小样本配对数据的差异检验场景——比如同一组受试者用药前后的指标对比、配对分组的两组 ...
2026-02-10在结构化数据分析领域,透视分析(Pivot Analysis)是CDA(Certified Data Analyst)数据分析师最常用、最高效的核心实操方法之 ...
2026-02-10在SQL数据库实操中,字段类型的合理设置是保证数据运算、统计准确性的基础。日常开发或数据分析时,我们常会遇到这样的问题:数 ...
2026-02-09