
大数据爆发可能性:基础要件已经具备 从数据源到数据应用形成完整生态
国内大数据市场爆发的核心要件已经具备。 基于对影响产业发展的核心因素的分析, 立足当前时点, 我们判断国内大数据产业已经具备规模爆发的可能性:在线数据爆发式增长,数据源可获得性、流动性明显改善;云计算、分布式架构等技术推动大数据相关基础技术设施趋于完善; 大数据分析应用领域明星案例不断增多, 市场对于大数据价值认可度持续提升;国家宏观政策、资本市场热情为大数据产业的发展提供强劲支撑。
全球大数据市场发展路径为国内市场提供良好的参考。 据 Wikibon 数据,全球大数据市场规模在 2015 年突破 400 亿美元,产业发展初具规模,同时全球市场发展具有如下典型特征:
( 1 )形成多层次、 融合的大数据来源,包括企业内数据、商业数据以及独立第三方机构数据源。
( 2)基础软件模块整体空间有限,市场收入主体主要由数据分析服务和基础硬件模块构成,开源工具引入使得软件模块整体空间非常有限。
( 3)技术、行业认知驱动新兴数据分析企业崛起,以 palantir、 splunk 为代表的企业依托突出的技术,以及对特定行业的深刻认知,迅速打破传统 IT 企业的壁垒,并在特定细分行业领域占据主导地位。
数据源:数据规模爆发式增长,数据可获得性、流动性持续改善。 根据 IDC 数据, 2011年全球数据总量约为 1.82ZB,是 2008 年的近 4 倍,中投顾问预计 2020 年国内数据总量将达到 38.59ZB,远超过目前的全球数据总量,数据量正呈现爆发式增长。从数据的可获得性、流动性来看,互联网的发展创造了大量的线上数据,同时互联网和传统行业的融合,以及 IOT时代的到来,数据的可获得途径正在被持续拓宽,互联网加速数据间的流动和融合。
基础技术:计算、存储、分析技术不断成熟。 在传统的数据分析时代,数据首先通过ORACLE、 DB2 等数据库集中存储形成结构化数据,并通过 BI 工具,借助传统的数据挖掘算法进行分析和展现。进入大数据时代,我们面临数据量大、 结构化数据占比低等突出问题,传统的 IT 架构、分析算法已经难以满足需求。 2003~2004 年间, Google 公司在其对外发表的两篇论文中提出了 GFS( Google File System)、 MapReduce 两个核心概念,奠定了分布式文件存储系统以及分布式计算模型的理论基础, 2006 年分布式计算和存储框架 hadoop项目被提出,后续围绕 hadoop 的技术生态不断发展, 大数据相关计算、存储、分析技术不断成熟和完善。
分析应用:大数据的价值正在获得持续认可。 伴随着企业和机构对大数据重视度的提升,大数据的商业价值正在逐步显现,各行业积极探索和大数据相结合的应用场景,例如 Palantir在协助美国政府进行反恐、国土安全等领域的突出表现,国内互联网公司借助大数据进行的精准广告投放等。根据德克萨斯州大学学者的研究统计, 如果企业数据使用率提高 10%,各行业效益将提升 17%-49%不等。
政策&资本:政府大力推进,资本热情持续高涨。 近一年来,中央政府强力推动数据开放和大数据运用, 国务院常务会议 10 次提及“互联网+” 及大数据战略, 强调提高数据的开放程度和搭建数据共享平台。基于对市场前景的一致预期,国内大数据行业投资热度不断上升,仅 2015 年在国内融资的大数据创业公司就有超过 50 家,企业获得投资额预计超过 20亿美元,较 2014 年大幅增加。
大数据业务成功运作依赖于多个环节的共同参与和协调,我们将大数据产业链分成如下环节:上游的数据源,中间的数据存储、 计算,以及下游的数据分析应用。 纵观全球市场,根据 wikibon 统计数据,到 201 7 年,全球大数据市场规模将突破 500 亿美元,美国、西欧等传统 IT 发达地区目前已经走在前列,在下文中,我们将通过对全球大数据市场的回顾和分析,以试图探究全球大数据产业发展的内在逻辑以及对中国市场的有益借鉴。
产业全景:贯穿大数据全生命周期。 经历近 20 年的理论准备和产业发展, 目前全球市场已经形成了从数据源采集、数据处理到数据分析应用的完整产业生态:
数据源。 数据类型上,包括传统数据库存储的结构型数据以及 cloudera 等存储的半结构化、 非结构化数据,数据的来源上,包括销售、营销等企业内和商业数据,也包括从事数据整合的第三方机构和组织所贡献的数据。
数据处理。 主要包括数据的 ETL(抽取、转化、加载)、存储、计算等过程,涉及数据的切割、融合等动作,大量的中小企业通过推出特定的插件模块、基础工具不断推动整个技术生态的繁荣。
数据应用。 在该领域既包括传统的 IT 信息企业、 统计分析企业,也包括新兴的大数据公司,比如 palantir、 inrix 等,这些企业针对不同的行业、应用场景纷纷推出相应的大数据解决方案。
产业模块:专业服务模块表现最为优异 。如果我们将大数据的产业收入来源简单分类为基础硬件、 基础软件和专业服务三个模块,根据 wikibon 统计数据, 基础硬件模块、专业服务的市场表现明显优于基础软件模块:
基础硬件。 计算、存储两个子模块显示出强劲的增长动力,且整体份额占比极高,显示出云计算和大数据两个子产业较强的相互拉动作用。
基础软件。 主要由 hadoop 计算框架和数据管理两个子模块构成,整体规模非常有限,且增长平缓, 整个数据管理模块的收入包括传统的数据软件产品收入( ORACLE、DB2 等)和 NoSQL 商业化产品收入。
专业服务。 为增长最为快速、 份额占比最高的子模块,整体持续保持高速增长。
Wikibon 统计了 2013 年全球大数据领域收入排名 TOP 30 的公司,其中不仅包括 IBM、 HP 等传统综合 IT 企业,也包括 palantir、 inrix 等专注于特定领域数据分析的新兴企业,我们尝试对该 30 家公司进行归类分析,并探索各类别企业背后的一些共性的因素。
传统 IT 企业。 以 IBM、 HP、 dell、 oracle 等企业为代表,该类企业具有完整的软、硬件产品线,并通过既有产品线、 hadoop 等开源计算框架的融合,迅速构建出综合性大数据解决方案。
传统互联网企业。 以 google、 amazon 为代表, 本身具有雄厚的技术和资金支持,且数据源丰富,自身业务对大数据具有较强的需求。
传统咨询公司。 以埃森哲、 BCG 等传统咨询公司为代表,作为咨询业务的延伸,依赖于对行业的理解,面向企业输出大数据实施方案以及承担相应的数据分析职能等。
新兴大数据企业。 以 palantir、 splunk 等为代表,依赖于融合的计算框架和强大的技术实力,并叠加对特定行业的深入理解, 提供相应的数据分析服务,典型的技术、行业认知驱动。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11