
大数据服务业的结构与价值_数据分析师
进入2014年,大数据正从红遍媒体的概念炒作逐渐落地为生财的产业。如雨后春笋冒出的大数据服务商,在中国市场上展开了激烈角逐。从“中国大数据服务商综合服务水平TOP100排行榜”(以下简称榜单)中,已经可以隐约看出中国“大数据云图”的雏形。
中美“大数据云图”结构比较
相比美国同类榜单,高居首位的10Gen仅列第43,而大数据股明星Tableau仅列第45,而Marketo干脆没上榜。这让我们注意到榜单标的服务范围是中国,而非美国。
我去年到美国与《大数据云图》的作者芬雷布交流时,已经注意到,中美大数据产业布局存在巨大差异。在一年时间里,中国大数据的产业版块正发生巨大变化;对比大数据云图2.0版(2013版)与3.0版(2014版),美国的产业也在急剧变动。
美国大数据云图3.0版将产业版块重新划分为六块,分别为数据源、开源、跨平台基础设施/分析、基础设施、分析、应用。其中“分析”领域的热点是数据可视化、非结构化数据;“基础设施”领域的热点是NoSQL和NewSQL数据库;“应用”领域的热点是广告优化和营销。
比较中美“大数据云图”,可以看出以下特点:第一,在“数据源”领域,中美各有特色,中国互联网平台数据源和行业数据源建设已经起步,但本地数据(语用数据、情境数据)仍有待加强。第二,“开源”、“跨平台基础设施/分析”和“基础设施”三个领域,美国处于垄断地位。榜单中位列前15的均是美国厂商,且多跨“跨平台基础设施/分析”和“基础设施”两个领域。中国一些厂商认为美国相关技术专业性太强,不利于普及,更倾向短平快技术应用。但一些企业坚持在这些重要领域耕耘,如商业智能软件(用友软件,久其软件);数据中心建设与维护(天玑科技、银信科技、荣之联等);第三,中国厂商绝大多数集中于“应用”与“分析”领域。前者如广告优化与营销(阿里巴巴、腾讯等),金融、汽车、政府、健康、教育、安全等行业应用;后者如数据处理、分析环节、综合处理(拓尔思、美亚柏科等),语音识别(科大讯飞),识频识别(海康威视、大华股份、华平股份、中威电子、国腾电子)。在应用领域,中美热点相似度较高,都包括广告优化、营销、金融、产业、政府、健康、教育、安全等。
如果以上是对榜单的结构分类分析,接下来要按价值分类进行分析。
对中国“大数据云图”的价值分析
对大数据进行价值分类,可分为“风动”(客体价值)、“幡动”(主客体价值)、“心动”(主体价值)三类。这是六祖坛经的价值分类法。
1、风动类的大数据,是工程师眼中的大数据,看到是技术。典型代表是3V、4V说。林林总总的这方面定义,可以用一个词概括,这就是“复杂”。大数据本质上是复杂性数据。
从这个方向观察,中美企业差距较大。榜上前10名基本都是属于“跨平台基础设施/分析”的美国厂家。其中HP今年刚被列入美国“大数据云图”(3.0版),如今赫然列在第4。而以硬件加强大数据,7.4亿投Cloudera异军突起,HADOOP的CDH平台占中国一半的英特尔列在第2,却至今不在美国榜单。显然这是美国榜单出了问题,而中国这个榜单跟进比较及时超前。
未来发展,中国企业需要回到图灵初衷,找到复杂性数据的感觉(而不光是象谷歌那样迷信数学算法),沿跨“科技-人文”二元的“数据科学”方向发展。华为与伦敦帝国理工学院共建数据科学创新实验室,是积极迹象。
工程师扑向复杂性数据,就象小孩子扑向玩具一样,只关心是与不是这种事实评价,并不关心好与坏这种价值评价。商务或政务的代理人关心的是技术应用于人之后产生的价值,因此要把客体与主体联接起来。
2、幡动类的大数据,是业务代理人眼中的大数据,看到的是工具和能力。以美国政府的定义为代表。林林总总的这方面定义,可以用一个词概括,这就是“洞察”。
数据越复杂,成本越高,是迟钝(又称工业病),为不好;数据越复杂,成本越低,叫灵活(SMART),是好。洞察,就是指“穿透信息迷雾”。这是当数据进入泽字节(ZB)时代后,避免信息垃圾填埋,反而能保持“清清楚楚明明白白真真切切”的能力。
相比基础技术,中国企业借助市场优势,在应用方面具有优势。因此可以看到大批国内企业在榜。其中可分为三类,一类是ICT服务商,如华为、浪潮、用友、东软、金蝶等;一类是国内上市公司,如拓尔思、东方国信、天玑科技等“大数据概念股”;一类是互联网企业,如阿里巴巴、百度、腾讯等。
ICT服务商共同的特点,是从软硬件技术服务向商业数据服务方向转。例如,华为发布企业级大数据分析平台FusionInsight ,帮助企业洞察新商机。 用友通过“用友NC” 正在探索基于云平台的系列方案与应用服务,包括提供企业营销管理、供应链、制造生产、项目管理等服务。
大数据概念股上市公司的共同特点,是从解决方案提供商在向行业云数据服务方向转型。例如,东软集团在传统IT 服务基础上,向车载电子和医疗服务等新兴领域深化云数据服务。拓尔思开始做跨行业应用,和天行网安协作,提供基于数据分析的安全服务;天玑科技正从服务传统IT架构,转变为服务互联网架构,从纯粹的服务供应商,演变为产品和服务的提供商。此外,一批有数据中心业务基础的厂家也在向大数据转,如荣之联、中科金财等。
互联网企业,如百度、腾讯、阿里等拥有数据的平台型企业,纷纷针对自身的平台用户提供数据分析业务,并且向金融、环保、交通、医疗等行业的数据分析应用逐渐渗透。例如阿里巴巴开始做金融行业的数据分析应用。
透过目前的榜单,我们可以看出一个目前尚不明朗的潜在趋势。这就是亚马逊模式的兴起。亚马逊的重要性,我认为不能仅看到它排名第7这个表象而有所忽视。事实上亚马逊的大数据收入,是排位在前的所有厂商之和还要多许多。据Synergy报告显示,2013年第三季度,亚马逊获取了美国云计算市场总收入25亿中的多数份额,本身收入提升55%。Synergy估计,亚马逊第四季度云计算收入将达7亿美元,比微软、IBM、谷歌、Salesforce.com的总和还高出15%。这不是偶然的。限于篇幅不展开谈。这意味着中国企业中近亚马逊模式的,如阿里巴巴、用友、东软、金蝶等,还有更大潜力空间。
穿透今天这个排名来看明天,我们需要高度重视这样一个市场信号:大数据应用的主战场,可能并不象人们一般以为的那样,是在信息技术服务领域,而可能转向商务服务领域。这是ICT服务商、大数据概念股和互联网公司未来共同的转型升级方向。此外,大数据的绝对优等生FACEBOOK在中美大数据云图中都不见踪影,但类似模式却代表前沿方向。
3、心动类的大数据,是委托人(领导者与最终消费者)眼中的大数据,看到的是目的和意义。以IBM的智慧计算为代表。林林总总的这方面定义,可以用一个词概括,这就是“意义”。
有能力,却不明确要解决什么问题,大数据就是屠龙之术。大数据工作的结果,如果是把符合意义的数据留下来,叫智慧;如果是把不符合意义的数据留下来,叫愚蠢。大数据的主体价值在于把人的目的和意义的保障系统加以专业化(准确说是把手段与目的校准,保障做事不忘宗旨这件事专业化)。做事情的意义,无非来自两个方面,或者是老板指示目标;或者是目标本身,即最终消费者的满意与不满意。
按这个标准衡量,大数据发展到今天的水平,还很少有哪家达标。大数据要真想让付钱的人心动,还需要把大数据发展到更高阶段。好的迹象是,位列第1的IBM,至少在大数据纲领上,已明确了“智慧”这个主题词。说明他从100家中脱颖而出,第一个想明白了,通过风动、幡动,到底要让人心动,还是心不动。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15