京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据引擎,李彦宏的新大陆_数据分析师
百度在大数据领域迈出一大步。在昨天的百度技术开放日上,李彦宏现身并推出了百度大数据引擎。简单地将,大数据引擎将百度在大数据的数据、能力和技术开放给行业,行业尝尝距离甚远的大数据盛宴,百度则寻到了一个新的增长点。
大数据引擎三件套
一年前,BAT纷纷开挖大数据,一年后BAT在大数据应用上均取得了一些成绩。现在百度则率先将其大数据能力开放出来,百度大数据引擎一共分三个部分。
开放云:百度的大规模分布式计算和超大规模存储云。过去的百度云主要面向开发者,大数据引擎的开放云则是面向有大数据存储和处理需求的“大开发者”。
百度的开放云拥有超过1.2万台的单集群,超过阿里飞天计划的5k集群。百度开放云还拥有CPU利用率高、弹性高、成本低等特点。百度是全球首家大规模商用ARM服务器的公司,而ARM架构的特征是能耗小和存储密度大,同时百度还是首家将GPU(图形处理器)应用在机器学习领域的公司,实现了能耗节省的目的。
数据工厂:开放云是基础设施和硬件能力,你可以把数据工厂理解为百度将海量数据组织起来的软件能力。就像数据库软件的位置一样。只不过数据工厂是被用作处理TB级甚至更大的数据。
百度数据工厂支持单词百TB异构数据查询,支持SQL-like以及更复杂的查询语句,支持各种查询业务场景。同时百度数据工厂还将承载对于TB级别大表的并发查询和扫描,大查询、低并发时每秒可达百GB,在业界已经是很领先的能力了。
百度大脑:有了大数据处理和存储的基础之后,还得有一套能够应用这些数据的算法。图灵奖获得者N.Wirth(沃斯)提出过“程序=数据结构+算法”的理论。如果说百度大数据引擎是一个程序,那么它的数据结构就是数据工厂+开放云,而算法则对应到百度大脑。
百度大脑将百度此前在人工智能方面的能力开放出来,主要是大规模机器学习能力和深度学习能力。此前它们被应用在语音、图像、文本识别,以及自然语言和语义理解方面,被应用在不少App,还通过百度Inside等平台开放给了智能硬件。现在这些能力将被用来对大数据进行智能化的分析、学习、处理、利用。百度深度神经网络拥有200亿个参数,是全球规模最大的,它拥有独立的深度学习研究院(IDL)和较早的布局,在人工智能上百度已经快了一步,现在贡献给业界表明了它要开放的决心。
大数据引擎究竟是什么?
百度将基础设施能力、软件系统能力以及智能算法技术打包在一起,通过大数据引擎开放出来之后,拥有大数据的行业可以将自己的数据接入到这个引擎进行处理。同时,一些企业在没有大数据的情况下,还可以使用百度的数据以及大数据成果。
从架构来看,企业或组织也可以只选择三件套中的一样使用,例如数据存放在自己的云,但要运用百度大脑的一些智能算法应该也是支持的。
举几个例子可能你更加清楚百度大数据引擎究竟是什么。
许多政府部门拥有海量大数据——大数据经典之作《大数据》也是在讲美国政府的大数据。但政府部门几乎都没有大数据处理和挖掘技术。交通部门有车联网、物联网、路网监控、船联网、码头车站监控等地方的大数据,卫生部门拥有流感法定报告数据、全国流感样病例哨点监测和病原学监测数据,公安部门有大量的视频监控数据。如果这些数据与百度的搜索记录、全网数据、LBS数据结合,在利用百度大数据引擎的大数据能力,则可以实现智能路径规划、运力管理、流感预测、疫苗接种指导、安防追逃等等。
许多企业也拥有海量大数据——通信、金融、物流、制造、农业等行业。不过,它们几乎都没有大数据能力,坐拥海量数据却一筹莫展。这时候如果能够应用百度大数据引擎,则可以对海量数据进行可靠低成本的存储,进行智能化的由浅入深的价值挖掘。在百度技术开放日上,中国平安便介绍了如何利用百度的大数据能力加强消费者理解和预测,细分客户群制定个性化产品和营销方案。
可以看出,大数据引擎的输入实际上是百度拥有的大数据以及行业已有的大数据,而输出则是各种行业应用成果,也就是大数据的“价值”。如果要为百度大数据引擎想一个SLOGAN,可以是“把大数据交给我们即可”。
百度大数据引擎的出现并非一日之功。大数据技术本身已发展数年,而百度在大数据方面也进行了不少布局,例如百度云、深度学习、计算中心等等。同时与中国平安和一些政府部门此前也已进行一些大数据应用的初步尝试。
与一些类似项目的对比
在百度之前,业界已经有一些类似的思路,即有一些大数据能力的企业视图将自己在基础能力或者软件方面的优势释放出来。
Google:大数据时代的奠基者。对应到百度开放云,它有举世闻名的数据中心以及基于Colossus的云;对应到百度数据工厂,Google近年来为迎接大数据时代不断改造核心技术,包括比MapReduce批处理索引系统搜索更快的Caffeine,专为BigTable设计的分布式存储Colossus比GFS还要先进,Dremel和PowerDrill管理和分析大数据,以及Instant和Pregel。对应到百度大脑,Google提供的大数据分析智能应用包括客户情绪分析、交易风险(欺诈分析)、产品推荐、消息路由、诊断、客户流失预测、法律文案分类、电子邮件内容过滤、政治倾向预测、物种鉴定等多个方面。技术有Big Query、趋势图等。
可以说Google与百度的思路最为接近,不过Google目前还未将它的大数据能力打包起来以一个新“引擎”的方式共享。毫无疑问,这在不久之后就会发生。
亚马逊:云计算的奠基者。亚马逊是IaaS(基础设施即服务),与阿里云非常相似。亚马逊在用户交易、个人偏好、经济领域的大数据能力可能比Google还要优秀,也被一些人视作这是亚马逊与Google竞争的唯一机会。亚马逊目前更多还是在云领域做贡献,虽然也有Redshift的方案,但在数据工厂和人工智能的开放上进展慢一些。
阿里巴巴:
亚马逊对应回中国自然是阿里巴巴。阿里云是国内最早的独立运作的云部门。数据则是阿里三大核心战略之一,大数据也被摆到了阿里十分重要的位置,不懂技术的马云经常谈及大数据都有人调侃他应该改名Data Ma。阿里在大数据基础设施领域确实取得了突飞猛进的进展,飞天、Apsara、跨机房5K集群都是知名的大数据项目,应对双十一、余额宝规模取现预测、广告业务高速增长等业务场景也证明了阿里的大数据能力。
阿里大数据的思路便是做大数据的集市,让阿里系之外的大数据能够跑在阿里苦心搭建的大数据机器上运转起来。不久之前阿里与东软合作,后者的业务未来都将部署在阿里云。这意味着东软客户的数据很可能会进入阿里的大数据体系。可以确定阿里将会推出类似大数据引擎的平台,将大数据能力完全开放出来。
相比百度,阿里在“数据工厂”这块应该是各有所长,在数据基础领域以及业务理解方面有着电商领域的专注,但人工智能这块跟百度比肯定会有不小差距。语音、图像和自然语言理解,阿里并没有多少积累,它更擅长处理结构化的数据。
其他电商玩家如京东和苏宁也有类似的云,与阿里和百度完全不在一个级别就不比较了。
Salesforce等软件公司:
Salesforce近两年收购了超过5家与社交大数据相关的营销公司,目的是获取更多的数据。其他的软件厂商和方案厂商也有大数据引擎方面的布局,EMC、Oracle有对应的大数据处理软件,IBM有大数据行业方案,英特尔入股大了数据初创企业Cloudera,Cloudera推出的Impala比Google Dremel还要快。Intel还推出了基于Hidoop的“大数据引擎”,加州伯克利大学AMPLab开发了名为Shark 的大数据分析系统。
回到国内,华为在去年发布了大数据平台产品FusionInsight,还有百分点科技这样的基于大数据的推荐服务公司。而“天河2号”等独立超级计算机也对外宣称它们的超级计算能力将会逐步开放出来。
不过,软件公司、方案公司以及超级计算机都无法做到像百度一样将大数据作为一种云端能力打包开放出来,也无法同时具备基础设施、数据工厂和智能算法的开放能力。尤其是“百度大脑”这部分,很少有其他具备这样的“数据智能”的能力。
百度将用互联网的方式来做开放的大数据引擎。它不可能采取与软件方案公司一样的“一竿子买卖”方式进行合作。而是将大数据引擎做成一个开放平台,形成标准的接口,让每个行业不同企业可以根据自身需求各取所需。而它的首要目的是获取数据,然后是考虑变现。
变现方式可能是增值服务、收费云、数据分析结果、技术咨询等方式,这将改变百度盈利模式过渡依赖“搜索广告”的现状。有消息称,大数据已经给Google每天带来2300万美元的收入,一年约为82亿美元。这已经远远超过百度2013年51亿美金的年收入了。因此,如果百度大数据引擎能够成功,很可能会为之带来源源不断的数据以及现金流。基于此,可以认为大数据引擎是百度的新大陆,是李彦宏一直在寻找的“百度的微信”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27