
大数据引擎,李彦宏的新大陆_数据分析师
百度在大数据领域迈出一大步。在昨天的百度技术开放日上,李彦宏现身并推出了百度大数据引擎。简单地将,大数据引擎将百度在大数据的数据、能力和技术开放给行业,行业尝尝距离甚远的大数据盛宴,百度则寻到了一个新的增长点。
大数据引擎三件套
一年前,BAT纷纷开挖大数据,一年后BAT在大数据应用上均取得了一些成绩。现在百度则率先将其大数据能力开放出来,百度大数据引擎一共分三个部分。
开放云:百度的大规模分布式计算和超大规模存储云。过去的百度云主要面向开发者,大数据引擎的开放云则是面向有大数据存储和处理需求的“大开发者”。
百度的开放云拥有超过1.2万台的单集群,超过阿里飞天计划的5k集群。百度开放云还拥有CPU利用率高、弹性高、成本低等特点。百度是全球首家大规模商用ARM服务器的公司,而ARM架构的特征是能耗小和存储密度大,同时百度还是首家将GPU(图形处理器)应用在机器学习领域的公司,实现了能耗节省的目的。
数据工厂:开放云是基础设施和硬件能力,你可以把数据工厂理解为百度将海量数据组织起来的软件能力。就像数据库软件的位置一样。只不过数据工厂是被用作处理TB级甚至更大的数据。
百度数据工厂支持单词百TB异构数据查询,支持SQL-like以及更复杂的查询语句,支持各种查询业务场景。同时百度数据工厂还将承载对于TB级别大表的并发查询和扫描,大查询、低并发时每秒可达百GB,在业界已经是很领先的能力了。
百度大脑:有了大数据处理和存储的基础之后,还得有一套能够应用这些数据的算法。图灵奖获得者N.Wirth(沃斯)提出过“程序=数据结构+算法”的理论。如果说百度大数据引擎是一个程序,那么它的数据结构就是数据工厂+开放云,而算法则对应到百度大脑。
百度大脑将百度此前在人工智能方面的能力开放出来,主要是大规模机器学习能力和深度学习能力。此前它们被应用在语音、图像、文本识别,以及自然语言和语义理解方面,被应用在不少App,还通过百度Inside等平台开放给了智能硬件。现在这些能力将被用来对大数据进行智能化的分析、学习、处理、利用。百度深度神经网络拥有200亿个参数,是全球规模最大的,它拥有独立的深度学习研究院(IDL)和较早的布局,在人工智能上百度已经快了一步,现在贡献给业界表明了它要开放的决心。
大数据引擎究竟是什么?
百度将基础设施能力、软件系统能力以及智能算法技术打包在一起,通过大数据引擎开放出来之后,拥有大数据的行业可以将自己的数据接入到这个引擎进行处理。同时,一些企业在没有大数据的情况下,还可以使用百度的数据以及大数据成果。
从架构来看,企业或组织也可以只选择三件套中的一样使用,例如数据存放在自己的云,但要运用百度大脑的一些智能算法应该也是支持的。
举几个例子可能你更加清楚百度大数据引擎究竟是什么。
许多政府部门拥有海量大数据——大数据经典之作《大数据》也是在讲美国政府的大数据。但政府部门几乎都没有大数据处理和挖掘技术。交通部门有车联网、物联网、路网监控、船联网、码头车站监控等地方的大数据,卫生部门拥有流感法定报告数据、全国流感样病例哨点监测和病原学监测数据,公安部门有大量的视频监控数据。如果这些数据与百度的搜索记录、全网数据、LBS数据结合,在利用百度大数据引擎的大数据能力,则可以实现智能路径规划、运力管理、流感预测、疫苗接种指导、安防追逃等等。
许多企业也拥有海量大数据——通信、金融、物流、制造、农业等行业。不过,它们几乎都没有大数据能力,坐拥海量数据却一筹莫展。这时候如果能够应用百度大数据引擎,则可以对海量数据进行可靠低成本的存储,进行智能化的由浅入深的价值挖掘。在百度技术开放日上,中国平安便介绍了如何利用百度的大数据能力加强消费者理解和预测,细分客户群制定个性化产品和营销方案。
可以看出,大数据引擎的输入实际上是百度拥有的大数据以及行业已有的大数据,而输出则是各种行业应用成果,也就是大数据的“价值”。如果要为百度大数据引擎想一个SLOGAN,可以是“把大数据交给我们即可”。
百度大数据引擎的出现并非一日之功。大数据技术本身已发展数年,而百度在大数据方面也进行了不少布局,例如百度云、深度学习、计算中心等等。同时与中国平安和一些政府部门此前也已进行一些大数据应用的初步尝试。
与一些类似项目的对比
在百度之前,业界已经有一些类似的思路,即有一些大数据能力的企业视图将自己在基础能力或者软件方面的优势释放出来。
Google:大数据时代的奠基者。对应到百度开放云,它有举世闻名的数据中心以及基于Colossus的云;对应到百度数据工厂,Google近年来为迎接大数据时代不断改造核心技术,包括比MapReduce批处理索引系统搜索更快的Caffeine,专为BigTable设计的分布式存储Colossus比GFS还要先进,Dremel和PowerDrill管理和分析大数据,以及Instant和Pregel。对应到百度大脑,Google提供的大数据分析智能应用包括客户情绪分析、交易风险(欺诈分析)、产品推荐、消息路由、诊断、客户流失预测、法律文案分类、电子邮件内容过滤、政治倾向预测、物种鉴定等多个方面。技术有Big Query、趋势图等。
可以说Google与百度的思路最为接近,不过Google目前还未将它的大数据能力打包起来以一个新“引擎”的方式共享。毫无疑问,这在不久之后就会发生。
亚马逊:云计算的奠基者。亚马逊是IaaS(基础设施即服务),与阿里云非常相似。亚马逊在用户交易、个人偏好、经济领域的大数据能力可能比Google还要优秀,也被一些人视作这是亚马逊与Google竞争的唯一机会。亚马逊目前更多还是在云领域做贡献,虽然也有Redshift的方案,但在数据工厂和人工智能的开放上进展慢一些。
阿里巴巴:
亚马逊对应回中国自然是阿里巴巴。阿里云是国内最早的独立运作的云部门。数据则是阿里三大核心战略之一,大数据也被摆到了阿里十分重要的位置,不懂技术的马云经常谈及大数据都有人调侃他应该改名Data Ma。阿里在大数据基础设施领域确实取得了突飞猛进的进展,飞天、Apsara、跨机房5K集群都是知名的大数据项目,应对双十一、余额宝规模取现预测、广告业务高速增长等业务场景也证明了阿里的大数据能力。
阿里大数据的思路便是做大数据的集市,让阿里系之外的大数据能够跑在阿里苦心搭建的大数据机器上运转起来。不久之前阿里与东软合作,后者的业务未来都将部署在阿里云。这意味着东软客户的数据很可能会进入阿里的大数据体系。可以确定阿里将会推出类似大数据引擎的平台,将大数据能力完全开放出来。
相比百度,阿里在“数据工厂”这块应该是各有所长,在数据基础领域以及业务理解方面有着电商领域的专注,但人工智能这块跟百度比肯定会有不小差距。语音、图像和自然语言理解,阿里并没有多少积累,它更擅长处理结构化的数据。
其他电商玩家如京东和苏宁也有类似的云,与阿里和百度完全不在一个级别就不比较了。
Salesforce等软件公司:
Salesforce近两年收购了超过5家与社交大数据相关的营销公司,目的是获取更多的数据。其他的软件厂商和方案厂商也有大数据引擎方面的布局,EMC、Oracle有对应的大数据处理软件,IBM有大数据行业方案,英特尔入股大了数据初创企业Cloudera,Cloudera推出的Impala比Google Dremel还要快。Intel还推出了基于Hidoop的“大数据引擎”,加州伯克利大学AMPLab开发了名为Shark 的大数据分析系统。
回到国内,华为在去年发布了大数据平台产品FusionInsight,还有百分点科技这样的基于大数据的推荐服务公司。而“天河2号”等独立超级计算机也对外宣称它们的超级计算能力将会逐步开放出来。
不过,软件公司、方案公司以及超级计算机都无法做到像百度一样将大数据作为一种云端能力打包开放出来,也无法同时具备基础设施、数据工厂和智能算法的开放能力。尤其是“百度大脑”这部分,很少有其他具备这样的“数据智能”的能力。
百度将用互联网的方式来做开放的大数据引擎。它不可能采取与软件方案公司一样的“一竿子买卖”方式进行合作。而是将大数据引擎做成一个开放平台,形成标准的接口,让每个行业不同企业可以根据自身需求各取所需。而它的首要目的是获取数据,然后是考虑变现。
变现方式可能是增值服务、收费云、数据分析结果、技术咨询等方式,这将改变百度盈利模式过渡依赖“搜索广告”的现状。有消息称,大数据已经给Google每天带来2300万美元的收入,一年约为82亿美元。这已经远远超过百度2013年51亿美金的年收入了。因此,如果百度大数据引擎能够成功,很可能会为之带来源源不断的数据以及现金流。基于此,可以认为大数据引擎是百度的新大陆,是李彦宏一直在寻找的“百度的微信”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13