京公网安备 11010802034615号
经营许可证编号:京B2-20210330
阻碍大数据“落地”的三大障碍_数据分析师
大数据时代已经来临。在人们畅想大数据将带来美好生活的同时,一个更加现实的问题却摆在眼前——大数据如何“落地”?政府和行业机构如何营造适应大数据发展的产业环境,企业如何开发强大和实用的数据分析工具,用户如何看待和适应大数据对个人隐私的“暴露”?虽然我们目前无法给出圆满回答,但是包括政府、企业、用户在内的多方正在积极寻找答案。
大数据无疑是当今的时髦词汇。不管是云计算、社交网络,还是物联网、移动互联网和智慧城市,都要与大数据扯上关系。各种与大数据有关的会议、文章、书籍铺天盖地。有人谈论大数据时代的公民生活,也有人谈论大数据时代网络反腐,仿佛一夜之间我们就进入了大数据时代。
大数据引发“思想启蒙”
国际上,大数据还真是热火朝天,各方都在积极行动。一方面,政府积极介入推动。2009年,联合国启动“全球脉动计划”,借大数据推动落后地区发展。2012年1月,世界经济论坛年会把“大数据、大影响”作为重要议题。美国从开放政府数据、开展关键技术研究和推动大数据应用三方面布局大数据产业。美国在开放政府数据上非常积极,通过Data.gov开放37万个数据集,并开放网站的API和源代码,提供上千个数据应用。除了推动本国政府数据开放,美国倡导发起全球开放政府数据运动, 已有41个国家响应。美国政府还投资两亿美元促进大数据核心技术研究和应用,把大数据放在与集成电路、互联网同等重要的位置,从国家层面推进。
另一方面,资本市场也对大数据钟爱有加。2012年4月,大数据分析公司Splunk首次公开上市发行股票,引发投资者关注。12月初,为企业市场提供Hadoop解决方案的创业公司Cloudera在E轮融资中获得6500万美元融资,估值约为7亿美元。近期,高盛联席主席斯科特·斯坦福说:“投资大数据及其运用回报率最高。”大数据领域的企业并购热度也在上升,在单笔平均并购金额方面,大数据超过云计算位居IT领域榜首,在总并购额上也位居第二。
在各方力量的推动下,大数据科研和产品开发逐渐活跃起来。一个新概念的兴起,最初往往会有人快速地“新瓶装旧酒”。已经存在好多年的商业智能、数据仓库等技术
被重新包装,以大数据系统的面目出现在市场上。这也使人困惑:到底大数据与传统数据分析技术有什么差别?可以说大数据最重要的特征是将数据处理的对象扩展到互联网级别(Internet Scale),技术上的进展主要包括:一、单数据集达到PB级别;二、非结构化占主流;三、几天至数秒内完成高速处理。技术形成了批处理、流处理和交互分析三种计算模式。离线批处理(Batch Processing)技术以MapReduce和Hadoop系统为代表,实时流处理(Stream Processing)技术以Yahoo的S4系统和Twitter的Storm系统为代表,交互式分析(Interactive Analysis)技术以谷歌的Dremel系统为代表。
大数据的火暴,也带动了国内学术界、产业界和政府对大数据的热情,但笔者认为其更大意义应在于唤醒了人们对数据的重视。2012年以来,中国计算机学会、中国通信学会先后成立了大数据委员会,研究大数据中的科学与工程问题,科技部的《中国云科技发展“十二五”专项规划》和工信部的《物联网“十二五”发展规划》等都把大数据技术作为一项重点予以支持。虽然这些举措着眼长远,短期难以看到效果,但这种热潮的确触发了一场“思想启蒙”运动,使得“大数据是资产,不是包袱”、“要拿数据说话”等观念逐步深入人心,改变了以往不重视数据积累、不相信数据分析等认识。有了这种思维模式的改变,大数据的应用就有了希望。
大价值还是大“忽悠”?
炒作归炒作,但真正可以落地或者已经落地的应用有哪些?在哪里?联合国“全球脉动(Global Pulse)”去年5月发布的报告,给出了用Twitter预测大米价格、用谷歌趋势(Google trends)跟踪登革热疫情等生动案例;美国中央情报局官员也披露大数据在帮助他们追捕恐怖分子方面立下功劳;有人声称成功利用Twitter预测了本届美国大选。这些听起来很炫的案例在各种场合被人们反复引用。各大咨询公司和解决方案提供商也都尽力挖掘大数据的应用场景。但实际看到的大规模应用案例除了互联网搜索引擎、电商和社交网站以及少数国家的政府网站外,在其他领域还并不多见。国内应用案例就更是凤毛麟角了。
空泛的炒作时间长了难免令人厌倦。有人开始质疑,大数据是大价值还是大忽悠?也有人警告说,“大数据是机会,但不是所有人的机会”,只有拥有大
数据的大型企业和政府机构才有应用大数据的潜力与机会;“大数据的确会有价值,但没有那么大”,就看你会不会挖掘,是否善于运用数据分析的结果了。只有冷静分析大数据对自身的价值与机遇,才能避免被忽悠。
必须迈过的“三道坎”
从全球来看,对大数据的认识、研究和应用还都处于初级阶段。特别是对我国来说,大数据真正落地,还需要迈过三道坎。
第一,数据是否足够丰富和开放。丰富的数据源是大数据产业发展的前提。而我国数字化的数据资源总量远远低于美欧,每年新增数据量仅为美国的7%、欧洲的12%,其中政府和制造业的数据资源积累远远落后于国外。就已有的有限数据资源来说,还存在标准化、准确性、完整性低以及利用价值不高等情况,这大大降低了数据的价值。同时,我国政府、企业和行业信息化系统建设往往缺少统一规划和科学论证,系统之间缺乏统一的标准,形成了众多“信息孤岛”,而且受行政垄断和商业利益所限,数据开放程度也较低,这给数据利用造成极大障碍。制约我国数据资源开放和共享的一个重要因素是政策法规不完善,一方面欠缺推动政府和公共数据的政策,另一方面数据保护和隐私保护方面的制度不完善,抑制了开放的积极性。因此,建立一个良性发展的数据共享生态系统,是我国大数据发展需要迈过的第一道坎。
第二,是否掌握强大的数据分析工具。要以低成本和可扩展的方式处理大数据,这就需要对整个IT架构进行重构,开发先进的软件平台和算法。这方面,国外又一次走在我们前面。特别是近年来以开源模式发展起来的Hadoop等大数据处理软件平台,及其相关产业已经在美国初步形成。而我国数据处理技术基础薄弱,总体上以跟随为主,难以满足大数据大规模应用的需求。如果把大数据比做石油,那数据分析工具就是勘探、钻井、提炼、加工的技术。我国必须掌握大数据关键技术,才能将资源转化为价值。应该说,要迈过这道坎,开源技术为我们提供了很好的基础。
第三,管理理念和运作方式能否适配数据化决策。大数据开发的根本目的是以数据分析为基础,帮助人们作出更明智的决策,优化企业和社会
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27