京公网安备 11010802034615号
经营许可证编号:京B2-20210330
解析大数据市场格局
随着时间的推移,大数据的能量将逐步引起更多的关注,企业需要相关的分析能力以取得竞争优势进而改善运营效率,而相关的技术以及服务会相继部署,大数据市场规模将大幅壮大,从现在到2017年其年复合增长率将达到58%。
Wikibon认为,大数据市场涵盖如下的技术、工具以及服务:
·Hadoop分发、软件、子项目以及相关硬件;
·下一代数据仓库以及相关硬件;
·大数据分析平台以及应用;
·适用于大数据的商业智能、数据挖掘和数据虚拟化平台以及应用;
·适用于大数据的数据集成平台以及工具;
·大数据支持、培训以及专业服务。
如上只是一个比较宽泛的界定,多数的核心大数据技术或者工具会集成其中的几部分要素。它们利用通用硬件来实现横向扩展以及并行处理;采用无关联数据模型来处理非结构化数据或半结构化数据;利用纵列式数据存储或者数据压缩能力来改善查询效率;通过和商业分析以及数据虚拟化技术互操作来向最终用户传递洞察力。
大数据对于所有行业而言,都绝对是一个关键的竞争优势之源。那些很好地理解并且擅长利用大数据的组织,将有可能实现持续性的创新、保持敏捷性并且持久改善盈利状况。
对于当前的市场而言,大数据专营厂商整体的收入为3.11亿美元。尽管它们在整体市场收入中所占的比例尚小(大约5%),这些厂商—例如Vertica、Splunk以及Cloudera—将会是未来创新的主力,并且会为数据管理以及分析带来更加好的方法,而这一切将会使得大数据成为IT领域最为热门的部分。
Wikibon所定义的大数据专营厂商,指的是大数据业务相关的收入能够在该厂商总体收入中的占比超过50%的独立硬件、软件或者是服务提供商。目前,这一集团涵盖了3个下一代数据仓库厂商—HP Vertica、Teradata Aster以EMC Greenplum,这些厂商目前依旧拥有独立运营的权利或者其DNA还没有收到并购者的太大影响。
从收入规模上来说,当前大数据市场的领导者是IBM、Intel以及HP,这些巨鳄将会面临着越发激烈的竞争。
当前,IBM和Intel从收入规模上而言是引领大数据市场的,这主要得益于他们在所提供的产品或者解决方案覆盖的范围比较广,而且已经通过许多企业的数据中心占据先机。对于Intel而言,其商用x/86服务器在大数据项目中备受青睐;至于IBM,其对业务分析的重视以及其强大的服务组合驱动了其大数据业务收入。另外,由于市场还不成熟,规模尚小的大数据专营公司才刚刚发力。
然而,就大数据市场而言,最具有冲击力的创新会来自于众多的专营公司,虽然他们目前所占的份额并不大。
Wikibon预测,随着产品、服务支持以及销售渠道的逐步成熟,在未来5年内这些大数据专营公司将会迎来快速增长期。当然,这也意味着,任何一个专营公司都可能成为IBM、Oracle、HP、EMC或者其他公司的收购对象。正如在2007到2008年间在商业智能市场曾经发生的一切,未来3到5年,大数据市场将迎来一个重要的并购时期。
我们来看一下在大数据专营厂商推动下的创新成果:
Hadoop分发
在ApacheHadoop项目中,Cloudera和 Hortonworks做出了多数贡献,显著提高了开源大数据架构的性能。
比如,Cloudera对于Apache Hbase就做出了卓越的贡献。Apache Hbase是基于Hadoop的非关系数据库,允许低延迟以及快速搜索。另外,在Cloudera工程师的努力下,通过HFile v2改进了Hbase存储效率。
Hortonworks的工程师正致力于下一代MapReduce架构的研究,该架构能够提升Hadoop群集大小,突破了当前实践中4000个节点的限制,并且增加了实时数据流分析能力。
下一代数据仓库
截至目前,排名前三的下一代数据仓库独立厂商—Vertica、Greenplum和 Aster Data正在通过大量的并行式、纵列式分析数据库颠覆传统的企业数据仓库市场,新的模式能够加快数据加载速度,带来近乎实时的查询能力。
比如,Vertica Analytic Platform的最新版本Vertica 5.0,包含了新的弹性,能够很容易地延伸或者收缩部署,并且拥有一系列的数据库内的分析功能。
Aster Data率先推出了创新的SQL-MapReduce构架,将SQL和MapReduce两者在数据处理方面的优势捆绑在了一起,而Greenplum独特的协作分析平台Chorus则为数据科学家提供了一个实验大数据的社交环境。
在过去的两到三年间,如上所提3家厂商都取得了收入的大幅增长。2011年,Vertica的年收入为8400万美元位列第一,Aster Data和Greenplum分别以5200万美元和4000万美元排在二、三位。
大数据分析平台和应用
少数积极进取的厂商正在研发基于Hadoop架构的应用和平台来为数据科学家以及常规商务用户提供简单易用的工具来尝试大数据。
Datameer凭借其基于Hadoop的商务智能平台获得了市场垂青,该平台采用了大家比较熟知的类似于电子表格的界面,允许用户使用或者分析基于Hadoop的数据。Digital Reasoning的Synthesis平台架构在Hadoop之上,能够分析基于文本的通信,如今已经在政府部门取得了稳固的地位,正在计划向传统企业级市场进军。Karmasphere开发了一个分析开发平台,允许数据科学家通过SQL界面进行即席查询。
大数据即服务
在Tresata、1010data以及ClickFox等厂商的推动下,“大数据即服务”的部署如火如荼。基于云的大数据应用以及服务使得缺乏内部大数据专业技术中小型企业有机会利用大数据处理以及分析能力,而无需来部署或者管理硬件或者软件。
比如,Tresata的云平台,采用了Hadoop来处理以及分析其客户的大量财物数据,并且借用第三方的数据—例如股票市场数据—来丰富它,另外,还通过按需虚拟化为银行、金融数据公司以及其他的金融服务单位反馈结果。
1010data提供了一个基于云的应用,允许商务用户以及分析师以一种他们所熟悉的电子表格的形式来操控大数据。ClickFox平台挖掘了大量的用户接触点(touch-point)数据以来描绘总体的客户体验。
非Hadoop大数据平台
也有许多非Hadoop厂商对于大数据市场的创新做出了卓越贡献,他们包括:
·Splunk,专注于处理以及分析日志文件数据,允许管理员监控IT基础构架的运行情况,并且辨别出服务的瓶颈或者其它问题。
·HPCC Systems,剥离自LexisNexis,提供具有竞争力的大数据构架,是其工程师在过去的10年间在内部建立的,能够帮助公司为其在金融、公共事业部门以及政府领域的客户进行的大数据处理以及分析。
·DataStax,提供开源Apache Cassandra NoSQL数据库的商业版本,另外还包括与Hadoop绑定的相关支持服务。
行动起来
企业需要密切关注这些以及其他的大数据专营厂商,因为他们将带来创新的、实用的大数据平台、应用以及服务。
大数据市场正在爆炸性增长,这不仅表现在市场舆论层面,更是体现在真实的收入上。而且,有一点已经非常明了,那边是大数据市场规模庞大,并且增长迅猛。对于IT业者,这意味着要去投资一种方法,通过这种方法能够在你的企业或者组织内部将数据源货币化;同时意味着掌握必要的技术来达到货币化的目标。对于大数据厂商而言,这意味着你需要有一个关于大数据的一个好的故事,要可靠可信,并且有非常清晰的提供商业价值的路线图,它还需要具备足够的灵活性以应对快速变化的市场。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14