京公网安备 11010802034615号
经营许可证编号:京B2-20210330
怎么管好大数据下的大城市
当一个一个超级大城市在不断增加时,应该怎么管?
交通越来越堵塞,人口流动性越来越强,空气质量越来越令人担忧,噪音等污染越来越严重……数据、智能,能否给我们搭把手,在监测、预测和调控方面,助我们一臂之力?
前几天,黑智(VR-2014)也报道了在今年的GMIC现场,驭势科技CEO吴甘沙和《机器学习》作者、卡内基梅隆大学计算机科学学院机器学习系主任Tom Mitchell ,就也对未来的AI如何颠覆我们的城市生活进行了讨论。甚至,他们还提到,是否可以用人工智能技术,来帮助雄安新区的规划。
郑宇博士和他的团队,就是在用“城市计算”回答这些问题的人。
郑宇博士是微软亚洲研究院“城市计算”领域负责人。他主持开发了多个城市大数据系统,其中Urban Air首次利用大数据来监测和预报细粒度空气质量,该服务覆盖了中国的300多个城市,并被中国环境保护部采用。
2013年,郑宇被MIT科技评论评为“全球杰出青年创新者”(TR35),并作为现代创新者代表登上了美国《时代》周刊。2014年,由于他主导的城市计算具有巨大的商业前景和改变行业格局的潜力,他被《财富》评选为中国40位40岁以下商界精英。2016年被评为美国计算机学会杰出科学家 (ACM Distinguished Scientist)。
在不久前结束的AAAI 2017上,郑宇发表了研究论文《运用时空深度残差网络进行城市人群流动量预测》,这也是全球真正把深度学习有效用在时空数据上的第一个研究成果。而人工智能在城市计算领域的进展究竟如何?郑宇在源码资本2017年码会上,进行了详细的讲解。
非常高兴有机会能够跟大家分享我们在城市计算(Urban Computing)领域的工作。大家平时听到很多人工智能用于语音、图象、文本的场景。怎么样用人工智能和大数据技术改变我们的生活,我围绕这个主题探讨一下,人工智能在城市领域的进展。
做好人工智能在城市领域的应用需要四个方面的技能:
1、理解城市文化本身,数据科学家纯粹的理论无法代替行业知识;
2、理解数据本身,不仅仅要了解数据的表征,也要了解数据背后蕴含了什么样的知识;
3、掌握数据科学的模型,包括数据管理,数据挖掘,机器学习,还有可视化;
4、懂得如何利用云平台,把算法高效部署在平台上解决问题。
在城市领域,以上四点也有应用上的不同之处。
可以想象,城市里面数据特别多。链家的、搜房的,从地理信息到人流量,好像千差万别上百种、上千种的数据。实际上按照数据的结构来分的话有两种数据,一种点的数据,一种网的数据。按照数据关联的时空属性来分,可以分为三类。所以总共有六种数据。这六种中最为复杂的就是轨迹数据,因为物体的位置和在每个位置上的属性都在不断的随着时间改变,而且点和点之间存在着关联。像摩拜和滴滴的车的轨迹都属于这种类型。
我不希望来了一千种数据要建一千种模型和算法,使得系统变得非常复杂。我们希望只要定义好这个模型之后,不管你来什么数据,可以高效利用平台,利用对应的分析和挖掘算法去处理。
城市领域有大规模的数据,多元、多模,变化非常快,这么复杂的数据怎样快速更新,以及大规模的应用?必须要有一个平台。大家自然会想到,我们就用云平台把它连接到一起。可惜的是,不管哪家商用云平台都无法做好时空大数据,对城市大数据支持的并不是很好。
现有云平台处理城市大数据的限制,与MSRA的实践:
1、数据结构很不一样,跟图象文本结构不一样。
2、查询方式不一样。例如我们在找滴滴的时候,希望是找周边这个时间段内有没有空车经过,而不是关键词进去匹配一个文本出来。
3、真正我们做城市计算的时候我们往往用到多个数据源,而不是单一数据。比如说空气质量预测的时候我们需要用到气象、交通、地理信息以及人的移动数据,怎么样把这些数据多元管理起来?这是一个难题,这个技术是缺失的。所以基于它的原因,现在已有的云平台并不能支持很好支持时空大数据。
受限于已有云平台的现实限制,微软亚洲研究院去年在洛阳市落地了中国第一个城市大数据平台。
它首先定义了六种数据模型,然后利用了现有微软云计算平台的存储资源。接着我们做了一层中间件,针对不同的数据结构设计了时空索引算法,并针对不同数据设计了混合式索引算法。然后把时空索引集成到Hadoop、Spark和Storm等分布式计算环境中。
这里面不光有分布式计算环境,也有时空索引算法,两者的结合把数据的访问和管理存储变得非常高效。最后向上层的机器学习和人工智能算法提供API,使得我们的机器学习算法能够快速访问下面的一些数据。想象一下,如果没有这一层的话很多机器学习算法根本不能上线,根本不能做大规模的访问和应用。
下面几个应用案例可以看到这个城市大数据平台所产生的实际效应。
城市充电桩与广告牌布局
我们要通过城市大数据平台,在贵阳市决定应该在什么位置放置充电桩,才能最大化覆盖整个城市的车流量。最终选取出五个路口,使得覆盖不同出租车的GPS轨迹数量最大化。
以前做这个工作需要一天。现在我们只需要2-3秒的计算结果。我们发现在商业应用中,部署一个东西除了需要数据科学支持,还需要行业知识支持,不仅要考虑车流量最大化的问题,还是考虑周边是不是商城,有没有配套。车主充电的两小时等待时间里,周边要有餐饮、娱乐机构供人休闲。
我们通过可视交互的分析方法实现人的智慧与人工智能的结合。人工智能先用简单的规则,用算法反馈一个初步结果让行业专家判断,行业专家认为这个点不合适可以删掉,或者保留这个点再计算,实现了一个迭代式的交互挖掘。
这个案例体现了平台的威力,性能的威力,也体现了真正把机器智能跟人的智能结合在一起。
除了充电桩,这个模型还可以分析商业门店选址、广告牌选址,这些案例体现出城市大数据平台的数据管理威力。
房价评估
在我们的这个城市大数据平台里,还有一个专门的数据分析层面,包含三个子层面:最普通的机器学习算法,专门针对时空数据设计的机器学习算法,以及多元数据融合算法。
我们看一下这个例子,我们想对房屋价值进行相应的排序,并不是预测价格。也就是说北京同样一个市场,如果涨的话谁涨的比较多,如果跌的话谁跌的相对比较慢?
在相同环境下,摒弃政策因素和环境因素。根据涨幅比将房子排序,排完序把房子排好12345等,一类房最好,五类房最差(涨的最慢,跌的最快)。李嘉诚说过,房子价值由三个方面决定,一是地段,二是地段,三还是地段。这三个地段其实可以用数据量化。
第一地段就是周边各类设施配套水平,交通,商场,学校等等这些数据都可以从路网、POI学到。同样是学区,重点学区和普通学校对房价影响非常大,好的商场比破旧的商场对这个地段的价值拉动差距很大。
所以有第二个地段:Popularity,比如人们出行规律非常重要。人们出行的规律已经刻划了这个地方的价值,一个地段坐公交地铁出去,另外一个地段基本上以开车打车出去,你觉得哪地段更高端一点,人的行为可以刻划这个地段的形式。
第三个地段是房子所在的商圈,并不意味着每一个望京区域的房子都是好房子,而要用7-8种数据刻划这个地段的价值。
从每一个数据里面可以提取出来很多的特征,再进行计算。比如说这个房子周边有几个公交车站,离他最近的公交车站多远,离他最近的地铁车站多远,然后可以把它变成排序的问题。这里面体现了不是一个简单的算法就可以解决的问题,很多特征是冗余性,并不是完全独立的,相关性非常大,而且很多特征不是线性的,因此我们要加很多的约束做这个事情。
怎么做验证呢?用2013-2014年的房屋数据预测2015年的排序,2015年过完之后自然知道这个结果怎么样。用搜房网解决这个事情准确率非常高。NDC基本上达到95%以上,这是一个非常好的结果。
这个技术还被应用到上海火锅店的选址以及对城市综合商业体的价值评估。中国一线城市的商业品牌,像万达以及保利商场等等,这些综合商业的评估是非常困难的,但用我们的方法来做是有价值的。2016年的数据已经显示,北京100多个综合商业体哪个涨幅最快,最值得投入,并且形成排序。这个排序也应用于银行业信贷评估,帮助银行业评估综合商业体的价值,决定以后贷多少钱,抵多少钱,通过人工智能评估长期价格增势。
AI+共享拼车
滴滴以及摩拜,这两个案例与AI联系非常紧密。
先讲拼车,电召车行业做到拼车才是真正的共享化,所以拼车是最终目标。发明拼车的初衷是城市车辆过多与打车难之间的矛盾。在希望车辆总量不增加的前提下,出现了拼车的想法。为了保证用户体验,拼车必须保证满足用户希望什么时间到达目的地的要求。
通过AI找到一辆车接这个人,并且他真正距离最小,这是一个最优的方案。但现在是不是还有别的车,可以满足乘客的到达时间,同时也要征求乘客的拼车意愿?如果可以使乘客的到达时间稍微推迟五分钟,但是可以省五块钱,你愿不愿意?在拼车方案中,保证乘客在规定时间到达,这个是关键的。
通过对车辆距离、预期到达时间与价格之间的动态平衡匹配,最大化满足用户的需求,是一个很困难的问题。这些需求已经超过了人类自己思考可以实现,必须要人工智能后面重新调度。
使用AI技术模拟,把出租车换成一个卡车,把一个人看成货物,上车点是取货地点,乘客下车地点是送货地点。我们把这些应用于顺丰合作,可以在不增加人员的情况把顺丰的吞吐效率提高5%-10%。
实现了当下的优化以后,对未来的优化更加重要。这将涉及到深度学习。
以物流业为例,未来的物流一要看预测,二要看累计最优,三要加时空索引,这三个东西要加在一起。
假设我们把一公里分成很多格子,可以预测未来有多少人进有多少人出,可以预测未来有多少人请求摩拜,有多少人请求滴滴,有多少人订饿了么。我们在贵阳已经开始做这种预测了,在贵阳预测的是每个格子里面有多少出租车进有多少出租车出。能够预测出未来这个地方有多少人请求饿了么的订单。用这种数据来验证我模型的正确性。
做深度学习预测人流、订单量最开始的动机来自于上海市的踩踏事件。踩踏事件发生之后我很痛心地写了一个微博,我说,这个事情可以通过人工智能做预测提前避免,如果提前两三个小时知道未来有多少人去那个地方,就可以从源头分流,不要等到大家都去了去疏解。如果政府能够提前预测量级,可以提前预备安全措施。
类似的公共需求也适用于北京地铁,商业需求则适用于滴滴、摩拜和饿了么等。
但是预测人流量是一个困难的工作,因为相关因素非常多。同时,时间空间数据不同于文本,空间有距离,有层次,时间有周期性,还有趋势性。
比如说交通容量每天都有变化,我们一定要考虑到时间的周期、趋势、临近性,考虑到空间的远近性,把不同的数据进行融合,以及不同的影响因子在不同层次融合。最后得到好的结果。这个数据在北京的出租车得到印证,在美国的自行车租赁系统得到印证,现在拿摩拜进行印证,效果都比以前的方法好很多。
空气质量预测
微软亚洲研究院曾经用大数据和人工智能的算法预测全国200多个城市的空气质量。
因为空气质量受很多复杂的影响,包括周边的楼房密度,周边的交通拥堵情况,周边的扩散情况,导致整个城市空气质量不均匀。
我们把京津冀、珠三角、长三角城市群数据放在一起,做大尺度的系列预测和分析。有了这个信息之后,你会发现每次空气质量从好变坏过程中,你就知道哪里先变坏,哪里后变坏,知道它的传播过程。政府是明确需要知道非常细的空气质量的数据,甚至要细到宾馆级,因为有的时候我们领导人就住在某个宾馆。
预测未来。我的预测是系列预测,空气质量预测既要看天还要看人,是个很困难的事情。如果你要看细,细到西直门、东直门怎么样?这非常困难。还有空气质量拐点的预测,我们知道当刮大风和下大雨时,空气质量从500瞬间就变成了50,这个拐点的出现对政府来说是极关重要的。
可是,空气质量的拐点为什么那么重要呢?举例说明,政府曾经做了很多措施限流限行,关闭了河北的工厂,以北京为中心画一个圆,把圆里面所有的工厂全关掉,使得我们的空气质量保持在100以下。但如果你知道明天是拐点,明天会下降干嘛去关它?这一个决策就能够帮国家避免上百亿上千亿的损失。
微软亚洲研究院还在贵阳落地中国第一个交通流量图。这个地方显示的是车的流量不是简单的速度,对政府的管理、规划它一定要知道有多少车经过,即流量。有了流量之后就能算出速度、油耗,每个路段上面都可以算出来,进而可以看出来每个路段实时排放的PM2.5有多少,现在能把车的尾气排放算出来,结合空气中测点的读数,我们知道空气中尾气排放和PM2.5结合在一起,我们就能够正确回答空气中汽车尾气排放和PM2.5到底占多少,这个对政府的指导具有重要的意义。
做好智能城市的4个关键
第一,要理解行业知识。如果我不懂环境,不跟环境学家交流,也不知道他们做了什么东西,那么他们行业里面也无法接受大数据的分析结果。
最近我搞了两年多环境,现在清华大学环境学院每年请我给他们环境学院的学生研究生上课,只有达到这个程度之后,才能跟别的行业融合。
第二,对数据的理解很重要。路面上的出租车交通轨迹不光反映了出租车交通容量,也反映了人们的出行规律。出行规律反映的是功能、经济、环境状况,如果这样想的话,你会发现我们的数据永远不缺,大数据时代我们不缺数据,缺的是心不够开放。大数据的价值把多个数据融合在一起,做到1+1大于2的结果,这才是它的特点和魅力。
第三,深度学习。我们看到各种各样的算法不只是机器学习,有深度学习、机器学习、数据挖掘还有数据库,很多方法索引加学习加模拟结合在一起,很多是把数据融合在一块。
第四,数据科学家。数据科学家非常难培养,培养这个人至少7-10年,很多项目只要有了这一个人,就能把这一个东西传到一块,一个好的数据科学家站在云平台上面,看问题想数据观模型,然后把模型部署到云平台上面,才能解决鲜活的问题,这才是数据科学家。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27