
解析大数据市场格局
随着时间的推移,大数据的能量将逐步引起更多的关注,企业需要相关的分析能力以取得竞争优势进而改善运营效率,而相关的技术以及服务会相继部署,大数据市场规模将大幅壮大,从现在到2017年其年复合增长率将达到58%。
Wikibon认为,大数据市场涵盖如下的技术、工具以及服务:
·Hadoop分发、软件、子项目以及相关硬件;
·下一代数据仓库以及相关硬件;
·大数据分析平台以及应用;
·适用于大数据的商业智能、数据挖掘和数据虚拟化平台以及应用;
·适用于大数据的数据集成平台以及工具;
·大数据支持、培训以及专业服务。
如上只是一个比较宽泛的界定,多数的核心大数据技术或者工具会集成其中的几部分要素。它们利用通用硬件来实现横向扩展以及并行处理;采用无关联数据模型来处理非结构化数据或半结构化数据;利用纵列式数据存储或者数据压缩能力来改善查询效率;通过和商业分析以及数据虚拟化技术互操作来向最终用户传递洞察力。
大数据对于所有行业而言,都绝对是一个关键的竞争优势之源。那些很好地理解并且擅长利用大数据的组织,将有可能实现持续性的创新、保持敏捷性并且持久改善盈利状况。
对于当前的市场而言,大数据专营厂商整体的收入为3.11亿美元。尽管它们在整体市场收入中所占的比例尚小(大约5%),这些厂商—例如Vertica、Splunk以及Cloudera—将会是未来创新的主力,并且会为数据管理以及分析带来更加好的方法,而这一切将会使得大数据成为IT领域最为热门的部分。
Wikibon所定义的大数据专营厂商,指的是大数据业务相关的收入能够在该厂商总体收入中的占比超过50%的独立硬件、软件或者是服务提供商。目前,这一集团涵盖了3个下一代数据仓库厂商—HP Vertica、Teradata Aster以EMC Greenplum,这些厂商目前依旧拥有独立运营的权利或者其DNA还没有收到并购者的太大影响。
从收入规模上来说,当前大数据市场的领导者是IBM、Intel以及HP,这些巨鳄将会面临着越发激烈的竞争。
当前,IBM和Intel从收入规模上而言是引领大数据市场的,这主要得益于他们在所提供的产品或者解决方案覆盖的范围比较广,而且已经通过许多企业的数据中心占据先机。对于Intel而言,其商用x/86服务器在大数据项目中备受青睐;至于IBM,其对业务分析的重视以及其强大的服务组合驱动了其大数据业务收入。另外,由于市场还不成熟,规模尚小的大数据专营公司才刚刚发力。
然而,就大数据市场而言,最具有冲击力的创新会来自于众多的专营公司,虽然他们目前所占的份额并不大。
Wikibon预测,随着产品、服务支持以及销售渠道的逐步成熟,在未来5年内这些大数据专营公司将会迎来快速增长期。当然,这也意味着,任何一个专营公司都可能成为IBM、Oracle、HP、EMC或者其他公司的收购对象。正如在2007到2008年间在商业智能市场曾经发生的一切,未来3到5年,大数据市场将迎来一个重要的并购时期。
我们来看一下在大数据专营厂商推动下的创新成果:
Hadoop分发
在ApacheHadoop项目中,Cloudera和 Hortonworks做出了多数贡献,显著提高了开源大数据架构的性能。
比如,Cloudera对于Apache Hbase就做出了卓越的贡献。Apache Hbase是基于Hadoop的非关系数据库,允许低延迟以及快速搜索。另外,在Cloudera工程师的努力下,通过HFile v2改进了Hbase存储效率。
Hortonworks的工程师正致力于下一代MapReduce架构的研究,该架构能够提升Hadoop群集大小,突破了当前实践中4000个节点的限制,并且增加了实时数据流分析能力。
下一代数据仓库
截至目前,排名前三的下一代数据仓库独立厂商—Vertica、Greenplum和 Aster Data正在通过大量的并行式、纵列式分析数据库颠覆传统的企业数据仓库市场,新的模式能够加快数据加载速度,带来近乎实时的查询能力。
比如,Vertica Analytic Platform的最新版本Vertica 5.0,包含了新的弹性,能够很容易地延伸或者收缩部署,并且拥有一系列的数据库内的分析功能。
Aster Data率先推出了创新的SQL-MapReduce构架,将SQL和MapReduce两者在数据处理方面的优势捆绑在了一起,而Greenplum独特的协作分析平台Chorus则为数据科学家提供了一个实验大数据的社交环境。
在过去的两到三年间,如上所提3家厂商都取得了收入的大幅增长。2011年,Vertica的年收入为8400万美元位列第一,Aster Data和Greenplum分别以5200万美元和4000万美元排在二、三位。
大数据分析平台和应用
少数积极进取的厂商正在研发基于Hadoop架构的应用和平台来为数据科学家以及常规商务用户提供简单易用的工具来尝试大数据。
Datameer凭借其基于Hadoop的商务智能平台获得了市场垂青,该平台采用了大家比较熟知的类似于电子表格的界面,允许用户使用或者分析基于Hadoop的数据。Digital Reasoning的Synthesis平台架构在Hadoop之上,能够分析基于文本的通信,如今已经在政府部门取得了稳固的地位,正在计划向传统企业级市场进军。Karmasphere开发了一个分析开发平台,允许数据科学家通过SQL界面进行即席查询。
大数据即服务
在Tresata、1010data以及ClickFox等厂商的推动下,“大数据即服务”的部署如火如荼。基于云的大数据应用以及服务使得缺乏内部大数据专业技术中小型企业有机会利用大数据处理以及分析能力,而无需来部署或者管理硬件或者软件。
比如,Tresata的云平台,采用了Hadoop来处理以及分析其客户的大量财物数据,并且借用第三方的数据—例如股票市场数据—来丰富它,另外,还通过按需虚拟化为银行、金融数据公司以及其他的金融服务单位反馈结果。
1010data提供了一个基于云的应用,允许商务用户以及分析师以一种他们所熟悉的电子表格的形式来操控大数据。ClickFox平台挖掘了大量的用户接触点(touch-point)数据以来描绘总体的客户体验。
非Hadoop大数据平台
也有许多非Hadoop厂商对于大数据市场的创新做出了卓越贡献,他们包括:
·Splunk,专注于处理以及分析日志文件数据,允许管理员监控IT基础构架的运行情况,并且辨别出服务的瓶颈或者其它问题。
·HPCC Systems,剥离自LexisNexis,提供具有竞争力的大数据构架,是其工程师在过去的10年间在内部建立的,能够帮助公司为其在金融、公共事业部门以及政府领域的客户进行的大数据处理以及分析。
·DataStax,提供开源Apache Cassandra NoSQL数据库的商业版本,另外还包括与Hadoop绑定的相关支持服务。
行动起来
企业需要密切关注这些以及其他的大数据专营厂商,因为他们将带来创新的、实用的大数据平台、应用以及服务。
大数据市场正在爆炸性增长,这不仅表现在市场舆论层面,更是体现在真实的收入上。而且,有一点已经非常明了,那边是大数据市场规模庞大,并且增长迅猛。对于IT业者,这意味着要去投资一种方法,通过这种方法能够在你的企业或者组织内部将数据源货币化;同时意味着掌握必要的技术来达到货币化的目标。对于大数据厂商而言,这意味着你需要有一个关于大数据的一个好的故事,要可靠可信,并且有非常清晰的提供商业价值的路线图,它还需要具备足够的灵活性以应对快速变化的市场。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10