京公网安备 11010802034615号
经营许可证编号:京B2-20210330
最新大数据产业地图及解读
从我第一次尝试为繁荣发展的大数据生态系统绘制一张信息图已经过去了两年, 而这期间大数据行业发生了很多巨大的变化。我早就该对这张图做一个更新,现在终于完成了。
从VC的角度,我想谈谈对这张图以及大数据行业的一些想法:
越来越拥挤:创业者们蜂拥至这个行业, VC们将大笔的资金投资到看起来有机会成功的创业公司,其结果是,这个行业正变得越来越拥挤。一些类别如数据库(不管是NoSQL还是NewSQL)和社交媒体数据分析正趋于成熟,且开始出现并购或者淘汰出局(Twitter对BlueFin和GNIP的收购可能意味着在社交媒体数据分析领域这种趋势早已经开始了)。
对于后来者来说,虽然空间依然存在,但看起来早期的大笔风投资金都下注在基础设施(infrastructure)和分析(analytics)领域,导致成功的标准变得越来越高。不过, 这并不意味着VC的资金会停止流入这些领域。
对于一些领域,公司的数量之多显然已经达到了一张地图所能容纳的上限。我相信还有一些不错的公司我们没能纳入进来,也许是我们没有发现,也许是因为地方不够了, 我在此表示非常抱歉,同时我也希望大家在评论里对于应当纳入那些公司提出反馈和意见。
尚处在早期阶段: 总体而言,这个市场还处在发展的早期阶段。 过去几年,一些被看好的公司失败了(如Drawn to Scale),一些公司的创业者提前退出了(例如Precog、Prior Knowledge、Lucky Sort、Rapleaf、Nodeable、Karmasphere等 ),还有一些的结局稍好(例如Infochimps、Causata、Streambase、ParAccel、Aspera、GNIP、BlueFin labs、BlueKai)。
与此同时,一些公司看起来正越做越大,并获得大笔惊人的风投注资(比如MongoDB已经融资超过2.3亿美元, Palantir融资近9亿美元, Cloudera近10亿美元。一些大公司正积极出击进行并购(Oracle收购BlueKai, IBM收购Cloudant),但是总体而言,多数公司离成功实现IPO和投资者功成身退还差的很远(虽然Splunk和Tableau做到了)。在很多类别,创业公司和大公司互相竞争,但并没有出现市场领导者。
市场宣传遭遇现实:在经历这些年狂轰滥炸的市场宣传之后,大数据还是焦点么?未来几年,也许大数据不再是媒体的热门,但对于大数据市场而言却是至关重要的,因为企业将要开始把大数据项目从试验转而全面的部署实施。
虽然这意味着一些大数据提供商的利润会迅猛增长,但同时这些项目也将成为大数据是否能带来它所宣传的价值的一块试金石。与此同时,随着“物联网”行业的迅速崛起,数据将会如潮水般加速增长,进一步推高市场对大数据技术的需求。
基础设施:Hadoop似乎已经奠定了其作为整个大数据生态系统的关键部分,一些竞争者依然虽在,这一领域也许会进一步发展和整合。 Sprak是另一个的基于Hadoop分布式文件系统(HDFS)的开源框架,它试图填补Hadoop的弱项,提供更快的的数据分析和良好的编程接口,目前正吸引大量关注(一些迹象显示它做的还不错)。
一些主题(比如实时数据处理)依然是重中之重,同时新的主题也在不断涌现(比如新一代处理、变换、清洗数据的工具,包括Trifacta、Paxata 和 DataTamer)。企业数据是否会真正的放到云里(公共云或私有云),如果是,还有多久才发生,将是另一个大的话题。很多人认为财富500公司在接下来的几年来会继续把数据(以及处理数据的软件)放在机房里。一批云服务 Hadoop的创业公司则认为长期来看,所有的数据最终都会放到云中。
分析工具:从创业公司和VC投资的数量来看,这一领域最为活跃。从excel表格式的用户界面,到时间轴动画和3D动画,创业公司提供各种各样的数据分析工具和用户界面,而不同的客户也确实有不同的需求,所以这一领域大概依然有足够的发展空间。
推广产品的策略也不尽相同 — 有些创业公司更针对于数据科学家,这群人目前不多但增长迅速。另一些则正好相反,他们销售自动化的解决方案给一般商业用户,完全忽略数据科学家的存在。
大数据应用: 正如之前预测的,大数据缓慢但的确朝着应用层面发展。这张图列出了一些令人兴奋的创业公司——他们本质上都是基于大数据技术和工具(当然我们无法把所有的相关公司都在这里列出来)。一些公司提供横向应用——如基于大数据的营销系统,客户关系管理系统和欺诈甄别解决方案。
金融业和广告科技业一直是大数据推广的领导者和最早的拥趸,甚至早于大数据被称作大数据。慢慢的,大数据推广到各行各业,如医疗行业和生化行业(特别是基因研究领域)和教育行业。现在才刚刚开始。
特别感谢我在FirstMark的同事Sutian Dong,她为这张图做了很多的基础工作。以及我在彭博Beta的前同事Shivon Zilis,他对这张图的之前版本做了巨大的贡献。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28