京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据到底有何用?看百度专家如何说
在硬件不挣钱服务挣钱的思想影响下,企业尤其是创业企业越来越重视大数据,企图最后利用大数据挣钱,然而,大数据是一个高高在上的存在,大多企业所做的,仅仅只是收集数据而以,至于后续怎么运用?其实至今还没有一个明确的可复制模式。近日,百度资深数据专家吴海山分享了百度LBS大数据的运用,或许能够对大家有所启发。
以下内容根据吴海山演讲有所更改,未改变原意。
百度大数据从何而来
百度研究院分为大数据实验室、深度学习实验室和美国硅谷的人工智能实验室。大数据实验室,主要利用百度各个行业的数据分析用户的画像,为用户提供解决方案。

百度作为国内最大的搜索引擎公司,旗下产品众多,为其提供了大量数据:
1、每天的移动地图搜索请求上亿
2、百度移动互联网的搜索比重越来越高,如今每天有近30亿次移动互联网搜索
3、依靠百度地图等相关应用,百度每天可获得接近6亿用户超过250亿次的定位需求
4、累计有定位轨迹的用户,安卓16亿,IOS1.2亿
据称借助GPS、基站、Wi-Fi和传感器信息,百度地图的整体定位精度为50m,其中GPS定位精度达10m,WIFI与基站定位的精度为27m。

以上为2015年除夕,不加任何地图元素,仅仅依靠百度地图的定位数据所展现的上海外滩结果,路的形状完全被数据刻划出来,这也从另一方面体现了百度定位数据的巨大。
分析用户画像
大数据的重要作用就是,根据这些数据结合网络上的搜索数据,可以对用户做非常详细的画像:

比如说在家装领域,根据这些数据,可以知道用户最近有没有装修的需求。同时还可以发现其中一些有意思的特征:男性居多,可能有比较强的购买力,女性仅占24%。而30到39岁人群是家装需求的主要人群,他们的购买能力最强,其次是29岁以下的结婚人群等。

这些用户直接关注哪些信息呢?对百度的搜索词进行文本分析,用机器学习和数据挖掘的方法可以发现大部分人很关心装修效果,这是现在很多年轻人比较关心的点,接下来是客厅、户型、背景、面积大小。
大数据还可以了解个人需求
大数据可以了解每个人不同的需求,下图是五一当天北京游客的分布,一类是安卓手机用户,还有一类是苹果手机游客,这些游客的分布,呈现了非常有意思的差异。其中苹果手机用户主要的游玩地点是王府井等地,而安卓手机用户则是天安门等。同样的,外地人与本地人的差异也有造成了同样的规律,外地人主要游玩天安门等名胜。

因此,通过了解用户的居住地以及使用手机型号等大数据信息,是可以在一定程度上预测用户需求的,甚至还可以预测用户的行为轨迹。比如下图中蓝色的线代表用户线下的行为,根据这些用机器学习的方法建模,可以预测用户下一步做什么,即红线。

大数据选址
现在包括齐家网在内的众多企业都在做线下O2O的体验店,应该放在什么位置,在什么地方开体验店能更吸引潜在客户?

这个图反映的是用户去星巴克与海底捞的差异。星巴克用户周一到周五去的频率比较高,去海底捞周末频率比较高。包括大家在每一天的时间,对于像星巴克,大家下午三四点去的概率最高,去海底捞大家下午六点到九点去的频率比较高。对于地点的需求也不一样,用户宁可走远一点去选一个更合适的海底捞,而对于星巴克,他们更愿意选择近的地方。
为此,根据用户定位搜索,其实也可以为商家做选址的方案。

现在若想选一个新的位置,应该选在什么地方呢?首先看一下最近有需求的用户分布在什么地方,上图中黑色代表现有线下的体验店,把现有的线下体验店,比如说每一个体验店能够满足周边一两公里用户的需求,我把满足需求去掉,之后可以发现还有哪些地方人有很强的需求,但是他在周边找不到体验店,在这个地方开体验店成功的概率是比较高的。

另外一个应用,百度数据还可以反应空间上经济形态的分布。来看全国iPhone6的分布,通过做了分析,可以看见省级的GDP和省iPhone6的分布是高度相关的,比较不相关的地方是北京、上海、深圳,我们发现这几个地方用户的行为更加复杂,用户的消费和其他地方的差异可能更大一些。 这对企业拓展市场有一定的指导意义。
房产空置率分析
我们还可以用百度迁徙数据来看中国城市的发展,比如说可以看到周边城市群的发展。
通过百度数据也可以看中国住宅区的空置率到底是什么样的,中国有很多城市叫所谓的鬼城。但到底哪些区域的楼盘空置率比较高,哪些地方的楼盘空置率没有那么高。
通过定位数据分析用户的工作地、居住地,再分析用户居住楼盘的信息,根据网上的数据和百度结果看这个楼盘,知道这个楼盘的容积率、建筑时间,根据这样一个结果可以检测出来全国范围内地产行业的住宅空置率。
我们发现像三亚、威海,这些地方不应该是鬼城,他们在节假日的时候人口峰值涨的很高,但这是典型的季节性的旅游城市,它和美国的迈阿密和新泽西是一样的。这些城市的房地产行业并没有想象的那么严重。
另外,之前被媒体报道比较多的河南郑州新区。根据数据我们发现,这个地方的经济现在已经好转很多了,越来越多的年轻人搬到郑州新区去住,这个已经是复苏非常好的城市,这个地方的地产行业已经比较景气。

地产行业的发展,更重要的指标是应该是净增人口的变化。如果这个城市的楼盘比较多,但是人口还是在下降,那这便是比较危险的信号。如果说这个城市虽然有一定的存量楼盘,但是这个城市整体人口是上升的,我们认为这个城市在地产、家装家居方面还有很大的空间。
智慧城市管理
另外,通过百度数据来做智慧城市的管理也是比较可行的。

上图是通过百度大数据做的研究,基于上海外滩的踩踏事件,事后根据百度的数据做的研究,可以发现百度地图数据可以很好的预测将来人口流动的趋势。根据这样的结果可以提供一些方案,帮助政府能够做人群的实时监控和预警方案。人群流量数据与地点搜索数据高度相关,其背后的因果关系在于:人们先搜索地点,进行规划,然后到达。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12在CDA(Certified Data Analyst)数据分析师的日常工作中,“挖掘变量间的关联关系”是高频核心需求——比如判断“用户停留时长 ...
2026-01-12在存量竞争时代,用户流失率直接影响企业的营收与市场竞争力。无论是电商、互联网服务还是金融行业,提前精准预测潜在流失用户, ...
2026-01-09在量化投资领域,多因子选股是主流的选股策略之一——其核心逻辑是通过挖掘影响股票未来收益的各类因子(如估值、成长、盈利、流 ...
2026-01-09在CDA(Certified Data Analyst)数据分析师的工作场景中,分类型变量的关联分析是高频需求——例如“用户性别与商品偏好是否相 ...
2026-01-09数据库中的历史数据,是企业运营过程中沉淀的核心资产——包含用户行为轨迹、业务交易记录、产品迭代日志、市场活动效果等多维度 ...
2026-01-08在电商行业竞争日趋激烈的当下,数据已成为驱动业务增长的核心引擎。电商公司的数据分析师,不仅是数据的“解读官”,更是业务的 ...
2026-01-08在数据驱动决策的链路中,统计制图是CDA(Certified Data Analyst)数据分析师将抽象数据转化为直观洞察的关键载体。不同于普通 ...
2026-01-08在主成分分析(PCA)的学习与实践中,“主成分载荷矩阵”和“成分矩阵”是两个高频出现但极易混淆的核心概念。两者均是主成分分 ...
2026-01-07在教学管理、学生成绩分析场景中,成绩分布图是直观呈现成绩分布规律的核心工具——通过图表能快速看出成绩集中区间、高分/低分 ...
2026-01-07在数据分析师的工作闭环中,数据探索与统计分析是连接原始数据与业务洞察的关键环节。CDA(Certified Data Analyst)作为具备专 ...
2026-01-07在数据处理与可视化场景中,将Python分析后的结果导出为Excel文件是高频需求。而通过设置单元格颜色,能让Excel中的数据更具层次 ...
2026-01-06在企业运营、业务监控、数据分析等场景中,指标波动是常态——无论是日营收的突然下滑、用户活跃度的骤升,还是产品故障率的异常 ...
2026-01-06