
大数据在美国 已完成从灰姑娘到公主的蜕变
大数据的老家在哪里?如果从血脉渊源来看,应该在美国。麦肯锡的报告、自然杂志的专刊,以及Gartner、IBM专家的演说都证明了这一点。今天我们就来聊一聊她和她的家乡。
起初,她只是一位灰姑娘
要想富先修路,美国从上世纪50年代开始修路,建起了全美的高速公路网。修路不是一件简单的事情,要人要钱要技术,不过这也正好解决了就业、刺激了经济。路修好了又拉近了距离,人活了,货活了,钱更活了,想去哪里去哪里。
上世纪90年代,风流倜傥的克林顿总统提出要将路修到互联网去,随后全美信息高速公路声势浩荡地开建了。
20年后,这条路修好了,路上承载了更多信息,文字、图片、影音… 类型越来越多,数量也越来越大,不仅如此,以前一年产生的量,如今一个月就生成了。不知不觉中,有人开始头疼如何处理他们,有人开始关注如何挖掘他们,于是,大数据这位灰姑娘进入了人们的视野。
联邦政府看上她
这位灰姑娘的出现,引得越来越多人关注,终于有一天联邦政府看上了她。2012年,奥巴马政府正在筹划修建另一条路,这条路隐于无形,联系着万事万物,像神经一样重要却不可见。那么这次修路的工具和材料哪里来呢,“众里寻他千百度,蓦然回首,那人却在灯火栏珊处”,他们的这次相遇注定将被载入史册。
2012年3月,白宫发布了「大数据研究和发展倡议」(「Big Data Research and Development Initiative」),家里六个兄弟纷纷斥巨资同她合作,听说加起来超过了2亿美元。科学基金(NSF)、卫生研究院(NIH)、能源部(DOE)、国防部(DOD)、国防部高级研究计划局(DARPA)、地质勘探局(USGS)这六个兄弟禀赋异常,与大数据联合起来,简直就是传说中的葫芦七兄妹。
他们的项目列表涵盖了科研教学、环境保护、工程技术、国土安全、生物医药好多领域,半年后,美国再次公布了一批研究项目。至此,美国大数据战略2.0版闪亮登场。
天使与恶魔只在一念间
水能载舟亦能覆舟,如何面对大数据的超能力,联邦政府开始纠结了。2014年5月,白宫发布了白皮书「大数据:抓住机遇,保存价值」(「Big data:seizing opportunities, preserving values」)
“抓住机遇,保存价值”—原以为是保存大数据妹妹的价值,通篇读完才知道这是美国人的思维,他们关注的是大数据的超能力对美国价值观的冲击。
这一切源于奥巴马对情报问题的关注。顾问团队90天后提交了两份报告,一份是白皮书,另一份是「从技术角度看待大数据与隐私保护」。(「Big Data and Privacy: A Technological Perspective」)。这让我想到此前去上海电力调研的收获,上海电力信息部门统管科技项目和信息化项目,他们第一年通过科技项目做可行性研究,条件具备的话第二年再上信息化项目。这种台面上一杯水台下一桶水的做法还是靠谱的
整份报告很纠结,也很让人欣慰。
也许我们没有想过大数据可能带来不平等—连锁超市通过数据分析选择在不同区域差异定价造成价格歧视,不使用智能手机人群在打车软件面世后更难打车。
也许我们没有想过大数据可能带来伤害–基因预测模型一旦出错则会误伤一片。
也许我们同样没有想过大数据可能对社会造成潜移默化的负面影响—过滤器泡泡正在孜孜不倦的构筑意识形态和文化的隔离,使每个人都沉浸在自己感兴趣的信息当中,减少冲突体验。时间长了,人们对熟悉领域的愿望和期待增强了,却慢慢忘记了那潜伏在暗夜的,未知爪牙。
纠结完,接下来开始大干一场吧。
兄妹同心 其利断金
大数据给美国政府装上了动力外骨骼。以纽约为例,那里设立了市长数据分析办公室(MODA),通过数据分析来提升政府日常运作水平、预防和处置紧急事件,MODA还和新企业加速服务团队(NBAT)合作,利用量化分析手段评估政府决策。市政府出台一个政策,他们就数据分析这个政策效果如何,好的话就推广不好的话就砍掉。
大数据在美国的公共事业领域也大显身手。美国教育和医疗的信息化一直都走在全球前列,有了大数据,他们可以更进一步了。学校关注如何通过数据分析,来调整教学方法。卫生研究院(NIH)、食品和药物管理局(FDA)这些机构一方面力推生物医学数据共享重用,另一方面着手研发大数据医疗神器,包括流行病预测的、重大疾病早期诊断的,还有像大白这样实时个性化服务的。能源部(DOE)资助建设大数据平台,鼓励公众高效利用能源。波士顿市和麻省理工学院合作利用大数据提供城市交通解决方案。
联邦政府与大数据的这一次合作背后还有很多神秘人物默默支持,他们一方面通过特许协议、年度协议与政府保持联系,另一方面以大咖身份投资最领先的大数据技术,In-Q-Tel(IQT)就是其中的一员,IQT投资了很多数据分析和数据管理的公司,而且主要进行早期投资,尽管投资总额小于红杉、英特尔等大佬,但是参与的大数据领域早期投资数量位居全美第三。
腹有诗书气质华
大数据在美国不是花瓶,她不仅天生丽质,而且勤奋努力,技术功底是相当的扎实。
美国是流行大数据计算框架的发源地。从Google说起,到Hadoop、Spark、Storm,这些框架都来自这里。活跃的开源社区还汇集了全球大数据人才的头脑。
美国还有一批像51区那样神秘的研究机构,硅图(SGI)是其中之一,谁也说不好这家公司目前正在发展怎样的尖端超级计算能力。这些日常生活中鲜有接触的重型装备,在制造业、媒体、生命科学和地球科学这些数据密集型行业可是大有用处。
美国高校也正孕育着一群科学小狂人儿。伊利诺伊大学在Grainger基金会的资助下正在发展一门大数据的工程学科,并且把它当做其他跨学科创新活动的秘密武器。纽约大学、伯克利和华盛顿大学在摩尔和斯隆基金会支持下也在小黄人儿的帮助下开展秘密研究活动。
阿凡达中的灵魂树
大数据已经渗透到美国生产生活的方方面面。这一次的工业对决中,德国工业4.0企图从工业渗透到互联网,美国则要从互联网渗透到工业。美国建设国家制造业创新网络(NNMI),其背后的杀手锏想必就是大数据了。
在零售领域,看看啤酒尿片经典案例诞生地沃尔玛的收购名单就已经让人惊叹不已,Kosmix、SetDirection、OneRiot一大批数据分析和营销应用的初创企业都赫然出现在名单上。农业方面,孟山都这类大型企业不用说了,就连家庭农场主也都将大数据运用得游刃有余,关键是还得到了丰厚的回报。
IBM、Oracle那一帮大佬自然不会落后。IBM将大数据列为企业战略目标,将软件、硬件、咨询服务、研发各个领域的资源都整合起来,正在积蓄着发一个大招。甲骨文也强调垂直整合,早在2011年就推出了集成硬件、存储和软件的大数据机。微软也推出了一体机和大数据产品,明确了普及计算和环境智能的发展战略。英特尔推出Hadoop商业发行版,入股了很多公司。EMC也不断加大并购和研发的投入。
美国最大的亮点的应该还是谷里风起云涌的初创企业,像Cloudera、Hortonworks、MapR这些公司在Hadoop上深耕,Splunk把实时数据分析系统做得越来越强大,Databricks又称为给力Spark,Pivotal提供了企业级大数据基础平台,Tableau的可视化萌萌哒,Flatiron Health试图利用大数据来治愈癌症,人工智能公司Vicarious正在复制人类大脑皮层,还有像Palantir这种帅呆又神秘的大数据分析公司。
我们对她的了解还是太少
上面看起来热闹非凡的场景,放到20年后来看或许只是发动汽车的扬尘。她太神秘、太美丽、太强大,或许以相来求她是错的,或许她终究是无处不在的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
人工智能对CDA数据分析领域的影响 人工智能对 CDA(Certified Data Analyst,注册数据分析师)数据分析领域的影响是全方位、多层 ...
2025-08-07SPSS 语法使用详解 在当今数据驱动的时代,SPSS( Statistical Package for the Social Sciences)作为一款功能强大的统计分析软 ...
2025-08-07SASEM 决策树:理论与实践应用 在复杂的决策场景中,如何从海量数据中提取有效信息并制定科学决策,是各界关注的焦点。SASEM 决 ...
2025-08-07CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-07大数据时代对定性分析的影响 在大数据时代,海量、多样、高速且低价值密度的数据充斥着我们的生活与工作。而定性分析作为一 ...
2025-08-07K-S 曲线、回归与分类:数据分析中的重要工具 在数据分析与机器学习领域,K-S 曲线、回归和分类是三个核心概念与工具,它们各 ...
2025-08-07CDA 数据分析师考试全解析 在当今数字化时代,数据已成为企业发展的核心驱动力,数据分析师这一职业也愈发受到重视。CDA 数据分 ...
2025-08-07大数据时代的隐患:繁荣背后的隐忧 当我们在电商平台浏览商品时,系统总能 “精准” 推送心仪的物品;当我们刷短视频时,算法 ...
2025-08-07解析 F 边界检验:协整分析中的实用工具 在计量经济学的时间序列分析中,判断变量之间是否存在长期稳定的均衡关系(即协整关系) ...
2025-08-07CDA 数据分析师报考条件详解:迈向专业认证的指南 在数据分析行业蓬勃发展的当下,CDA 数据分析师认证成为众多从业者提升专业 ...
2025-08-07通过 COX 回归模型诊断异常值 一、COX 回归模型概述 COX 回归模型,又称比例风险回归模型,是一种用于生存分析的统计方法。它能 ...
2025-08-07评判两组数据与初始数据准确值的方法 在数据分析与研究中,我们常常会面临这样的情况:需要对通过不同方法、不同过程得到的两组 ...
2025-08-07CDA 数据分析师行业标准:构建数据人才的能力坐标系 在数据驱动决策成为企业核心竞争力的时代,CDA(数据分析师)行业标准作为 ...
2025-08-07反向传播神经网络:突破传统算法瓶颈的革命性力量 在人工智能发展的历史长河中,传统算法曾长期主导着数据处理与模式识别领域 ...
2025-08-07MySQL 统计连续每天数据:从业务需求到技术实现 在数据分析场景中,连续日期的数据统计是衡量业务连续性的重要手段 —— 无论是 ...
2025-08-07抖音数据分析师:驱动平台增长的幕后推手 在抖音这个日活用户数以亿计的超级平台上,每一次用户的滑动、点赞、评论,每一条 ...
2025-08-07基于 SPSS 的中介效应分析结果解读:揭示变量间的隐性关联 在社会科学与自然科学研究中,变量之间的关系往往并非简单的直接作用 ...
2025-08-07正态分布与偏态分布的核心区别解析 在统计学中,数据的分布形态是理解数据特征、选择分析方法的基础。正态分布与偏态分布作为两 ...
2025-08-07CDA 一级考试内容详解 CDA(Certified Data Analyst)即数据分析师认证,一级考试作为该认证体系中的入门级别考试,主要面向零基 ...
2025-08-07中介分析的 SPSS 结果解读:从原理到实践 在社会科学、医学、心理学等领域的研究中,变量之间的关系往往并非简单的直接影响,而 ...
2025-08-07