京公网安备 11010802034615号
经营许可证编号:京B2-20210330
三道坎要大数据真正落地_数据分析师
大数据无疑是今年时髦的词汇了。不管是云计算、社交网络,还是物联网、移动互联网和智慧城市,都要与大数据扯上关系。各种与大数据有关的会议、文章、书籍铺天盖地。有人谈论大数据时代的公民生活,也有人谈论大数据时代网络反腐。仿佛一夜之间我们就进入了大数据时代。
大数据火爆,引发思想启蒙
国际上,大数据还真是热火朝天,各方都在积极行动。一方面,政府积极介入推动。 2009年,联合国启动“全球脉动计划”,借大数据推动落后地区发展。2012年1月,世界经济论坛年会把“大数据、大影响”作为重要议题。美国从开放政府数据、开展关键技术研究和推动大数据应用三方面布局大数据产业。美国在开放政府上非常积极,通过Data.gov开放37万个数据集,并开放网站的 API和源代码,提供上千个数据应用。除了推动推动本国政府数据开放,美国倡导发起全球开放政府数据运动, 已有41个国家响应。美国政府还投资两亿美元促进大数据核心技术研究和和应用,把大数据放在与集成电路、互联网同等重要的位置,从国家层面推进。
另一方面,资本市场也对大数据钟爱有加。2012年4月,大数据分析公司Splunk高调IPO,引发投资者关注。12月初,为企业市场提供Hadoop解决方案的创业公司Cloudera在E轮融资中获得6500万美元融资,估值约为7亿美元。近期,高盛联席主席斯科特·斯坦福说:“投资大数据及其运用回报率最高”。大数据领域的企业并购热度也在上升,单笔平均并购金额方面,大数据超过云计算位居IT领域榜首,在总并购额上也位居第二。
在各方力量的推动下,大数据科研和产品开发逐渐活跃起来。一个新概念的兴起,最初往往会有人快速地“新瓶装旧酒”。已经存在好多年的商业智能、数据仓库等技术被重新包装,以大数据系统的面目出现在市场上。这也使人困惑:到底大数据与传统数据分析技术有什么差别?可以说大数据最重要的特征是将数据处理的对象扩展到互联网级别(Internet Scale),技术上的进展主要包括:1)单数据集达到PB级别;2)非结构化占主流;3)几天至数秒内完成高速处理。技术形成了批处理、流处理和交互分析三种计算模式:离线批处理(Batch Processing)技术以MapReduce和Hadoop系统为代表,实时流处理(Stream Processing)技术以Yahoo的S4系统和Twitter的Storm系统为代表,交互式分析(Interactive Analysis)技术以谷歌的Dremel系统为代表。
大数据的火爆,也带动了国内学术界、产业界和政府对大数据的热情,但笔者觉得更大意义在于唤醒了人们对数据的重视。今年以来,中国计算机学会、中国通信学会先后成立了大数据委员会,研究大数据中的科学与工程问题,科技部的《中国云科技发展“十二五”专项规划》和工信部的《物联网“十二五”发展规划》等都把大数据技术作为一项重点予以支持。这些举措着眼长远,短期难以看到效果。但这种热潮的确触发了一场思想启蒙运动,使得“大数据是资产,不是包袱”、“要拿数据说话”等观念逐步深入人心,改变了以往不重视数据积累,不相信数据分析等认识。有了这种思维模式的改变,大数据的应用就有了希望。
空谈误国,拒绝被大数据忽悠
炒作归炒作,但真正可以落地,或者已经落地的应用有哪些?在哪里?联合国“全球脉动(Global Pulse)”今年5月发布的报告,给出了用Twitter预测大米价格、用谷歌趋势(Google trends)跟踪登革热疫情等生动案例;美国中央情报局官员也披露大数据在帮助他们追捕恐怖分子方面立下功劳;有人声称成功利用Twitter预测了本届美国大选。这些听起来很炫的案例在各种场合被人们反复引用。各大咨询公司和解决方案提供商也都会尽力挖掘大数据的应用场景。但实际看到的大规模应用案例除了互联网搜索引擎、电商和社交网站,以及少数国家的政府网站外,其他领域还并不多见。国内应用案例就更是凤毛麟角了。
空泛的炒作时间长了难免令人厌倦。有人开始质疑,大数据是大价值还是大忽悠?也有人警告说,“大数据是机会,但不是所有人的机会”,只有拥有大数据的大型企业和政府机构才有应用大数据的潜力与机会;“大数据的确会有价值,但没有那么大”,就看你会不会挖掘,是否善于运用数据分析的结果了。只有冷静分析大数据对自身的价值与机遇,才能避免被忽悠。
实干兴邦,破除大数据落地三大障碍
应该说,全球来看,对大数据认识、研究和应用还都处于初期阶段。特别是对我国来说,大数据真正落地,还需要迈过三道坎。
第一,数据是否足够丰富和开放?丰富的数据源是大数据产业发展的前提。而我国数字化的数据资源总量远远低于美欧,每年新增数据量仅为美国的7%,欧洲的12%,其中政府和制造业的数据资源积累远远落后于国外。就已有有限的数据资源来说,还存在标准化、准确性、完整性低,利用价值不高的情况,这大大降低了数据的价值。同时,我国政府、企业和行业信息化系统建设往往缺少统一规划和科学论证,系统之间缺乏统一的标准,形成了众多 “信息孤岛”,而且受行政垄断和商业利益所限,数据开放程度较低,这给数据利用造成极大障碍。制约我国数据资源开放和共享的一个重要因素是政策法规不完善,一方面欠缺推动政府和公共数据的政策,另一方面数据保护和隐私保护方面的制度不完善抑制了开放的积极性。因此,建立一个良性发展的数据共享生态系统,是我国大数据发展需要迈过去的第一道砍。
第二,是否掌握强大的数据分析工具?要以低成本和可扩展的方式处理大数据,这就需要对整个IT架构进行重构,开发先进的软件平台和算法。这方面,国外又一次走在我们前面。特别是近年来以开源模式发展起来的Hadoop等大数据处理软件平台,及其相关产业已经在美国初步形成。而我国数据处理技术基础薄弱,总体上以跟随为主,难以满足大数据大规模应用的需求。如果把大数据比作石油,那数据分析工具就是勘探、钻井、提炼、加工的技术。我国必须掌握大数据关键技术,才能将资源转化为价值。应该说,要迈过这道坎,开源技术为我们提供了很好的基础。
第三,管理理念和运作方式能否适配数据化决策?大数据开发的根本目的是以数据分析为基础,帮助人们做出更明智的决策,优化企业和社会运转。哈佛商业评论说,大数据本质上是“一场管理革命”。大数据时代的决策不能仅凭经验,而真正要“拿数据说话”。因此,大数据能够真正发挥作用,深层次看,还要改善我们的管理模式,需要管理方式和架构的与大数据技术工具相适配。这或许是我们最难迈过的一道坎了。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16