京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据应用实践,硕果累累
去年5月笔者曾撰文阐述百度、阿里和腾讯这三个互联网巨无霸开始挖掘大数据。一年过去,拥有海量数据的公司已在多个领域尝试对掌握的数据进行利用,大数据意识和能力进步飞快,体系和工具日趋成熟。
大数据应用实践,硕果累累
百度在大数据方面让人印象深刻的有百度迁徙这样的公益项目,应用在民生和新闻等领域。最新动态是,百度网盟利用基于大数据的CTR(广告内容匹配)数据,站长的平均收入提升70%。
阿里则对外宣称已经拥有100PB数据并以令人欣喜的速度增长,马云最新的内部邮件将阿里战略阐述为云端+大数据,阿里要进入数据时代。
腾讯广点通平台不乏亮点应用,例如美丽说借助广点通在移动端取得丰收,小米手机与QQ空间合作更是基于社交数据营销的经典。
百度、阿里均已将大数据升级为公司战略,李彦宏、雷军等互联网代表人物在两会时都曾有建言,推动政府的大数据意识和开放,大数据正在从理论走向实践,从专业领域走向全民应用的阶段。
互联网牵头大数据的必然性
为什么国内的大数据应用,只有几个互联网巨头取得成就呢?是因为它们拥有最多的用户、流量和数据吗?答案是否定的。因为所有关于大数据的论断都认为,大数据并不在于大。质量、性质以及谁拥有它,将决定大数据能被挖掘出来的价值和难度。
物联网传感器、视频监控设备时时刻刻都在收集海量数据,但价值没有微博大,因为数据难以变现。运营商拥有用户通信相关数据,从语音到短信再到位置,量大过任何一个互联网巨头。只能白白浪费,因为运营商不被允许也无能力去利用这些数据。与之类似,政府部门、软件企业均拥有大数据,却只能任其沉睡。
之所以BAT走在国内大数据应用的前列,即与其拥有的数据性质有管,与互联网企业的技术基因、开放创新和积极进取有关。
大数据利用难点在于技术。从数据的收集到存储到清洗,再到脱敏,归类,标签化、结构化,以及最后的建模分析、挖掘利用,均是技术活儿。需要服务器集群、数据利用模型和数据处理算法来保障,然后才是挖掘出来的结果的包装、变现。
相对其他拥有大数据的金主来说,互联网企业的技术甩开它们几条街。运营商技术是外包;银行的技术外包居多;其他公共部门例如政府、交通、教育、能源等行业,技术对他们是遥远的名词。
还有动机。互联网企业的服务产品几乎是免费,必须通过其他模式赚钱。过去是广告、游戏和增值这三种模式,到了移动端广告模式遇到瓶颈,需要新模式,抑或加强原有模式。这两点上,大数据都会起到大的作用。
BAT大数据思路迥异
BAT三家的数据各有特色。
百度是基于用户搜索行为的需求数据,阿里掌握着交易以及信用数据,腾讯则掌握着社交关系数据。各有千秋。它们对大数据的应用方向并不相同。百度和阿里更为激进。腾讯观望多过行动,也可能是说得少做得多。
首先是动机。
百度收入95%以上来自广告,淘宝的主要收入模式也是广告。百度、淘宝和CCTV是中国前三大广告投放阵地。腾讯主要收入来自游戏和社交增值业务,广告收入占比仅为三成左右。
本阶段大数据变现的主要途径是精准广告,这契合百度和阿里的诉求,两家将大数据升级为公司战略。
其次是技术。
搜索引擎是技术驱动,百度和其创始人李彦宏最具技术基因。马云对外宣称因为其不懂技术所以阿里技术最强。只有腾讯不怎么强调技术,一直强调产品能力。
大数据是技术活儿,百度和阿里这两位自认为技术很强的玩家探索在先符合常理。百度和阿里在大数据技术已经进行较多布局,从人才到架构到基础设施再到技术理论。
百度有深度学习研究院、高价聘请大数据领域人才以及与高校合作,正在建设亚洲最大云计算机房;阿里有飞天计划,有先进的跨机房5k集群、Apsara分布式计算系统,还有数据委员会这样的架构。
几家在云计算平台上的不同态度可以佐证我的观点。云平台和大数据是连体婴。“移动端”、合作伙伴和用户个人的数据,均需要“云”来收集、存储和处理。要掌握大数据,一定要具备承载数据的开放的云。
阿里云09年成立,百度云12年推出,分别对应到IaaS模式和PaaS(Amazon VS Google)。它们的云服务在向开发者和用户提供基础设施、云端服务的同时,收集第三方网站、应用、硬件和用户的数据。百度迁徙能够生效便是得益于第三方App为百度贡献位置数据。
腾讯云去年9月才推出,起步晚了点。虽然腾讯开放平台成熟,但开放平台更多是分享腾讯的用户和资源出来,目的不是收集数据。而且开放平台是运营、合作、生态层面的事,云平台才是技术问题。
最后是位置。
典型的互联网交易场景大概是这样的,用户在聊天、社交、娱乐的过程中,会被吸引注意力,关注“兴趣”,抑或因为兴趣而发现新的信息。然后用户去了解、去寻找想要的东西(需求、欲望、找到所求),最后在网上完成交易(电商和O2O)。
这里引用一下漏斗模型——一个悠久经典的营销概念。在这个模型里,用户消费时的大致决策路径是从注意(attention)、兴趣(interest)、欲望(desire)最后到行动(action)。
上图是被倒过来的漏洞。漏斗越到底部转化率越高。阿里在欲望和行动之间,百度在兴趣和欲望之间,腾讯则在漏洞顶部。
广告收费模式可以看出三家的位置差异。百度是CPC,按照点击次数付费(不管点击后的行为),阿里淘宝客等广告则直接可以对应到购买行为,CPA(按实际效果)和CPS(按效果佣金)居多。腾讯门户、QQ聊天Banner广告更亲睐于CPM或者CPT(按照展示次数或者时长),广点通是CPA,但亮点案例集中在应用下载领域,而不是交易领域。
三家都不希望只处于某一个环节,而是期望上中下通吃。百度有贴吧这样的兴趣社交产品,有视频这种注意力型业务,还推出了直接在结果页下单的“微购”,上下延展;腾讯重组了搜索业务(与搜狗合并)和电商业务(与京东合并),向下的机会还有;阿里投资微博、布局智能电视以及做导购网站做微淘,努力在向上走。
几个互联网巨头的动机、技术和位置的不同,在大数据应用上的思路也不同:腾讯蜻蜓点水,阿里布局为先,百度技术至上。相同的是,几家都在想方设法笼络更多的数据,收集数据是第一阶段,形成收集数据的能力和机制是第二阶段,第三阶段才是数据挖掘,目前BAT三家均处于从第二阶段到第三阶段之间,一旦大数据应用全面进入第三阶段,积累更深、投入更多的百度或将有望显出优势。
AppStore和iPhone的诞生,将人们带入了智能手机和移动互联网时代,颠覆了传统的软件业和手机业。未来,对大数据商业价值的发掘将给互联网公司拓展出更大的增长空间,甚至有可能催生出全新的商业模式和硬件产品,就像AppStore和iPhone那样,给人们的工作和生活方式带来颠覆性的变化。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11