
国务院副总理汪洋:大数据是竞争的一个新的制高点
休息这几天,我看了两本书,其中有一本是广西师范大学出版社出版的,一个美籍的华人涂子沛写的《大数据》,看以后非常有启发。我推荐你们全厅干部都看一下这本书,研究一下大数据时代。他这书里边讲,数据是对信息数字进行解释,赋予意义。进入信息时代后,人们趋向把所有存储在计算机上的信息,无论是数字还是音乐、视频,都统称为数据。2010年,美国总统科学技术委员会给总统和国会的报告写了这么几句话:数据正在呈指数级增长,联邦政府的每个机构和部门,都需要制定一个应对“大数据”的战略。现在大数据战略被认为是世界下一个创新、竞争和生产力提高的前沿,是争夺全世界的下一个前沿。你看,重要不重要。
书里面分析了政府数据有哪些来源和收集方式。他说了有三种来源,当然有不同的收集方式。第一种来源,业务数据。包括你们要做的,就是业务数据。来源是下级部门和社会组织,是以基层上报、被动接受为主。第二种数据是民意数据,是单个公民或组织需要投入人力,财力去主动收集,这样的数据收集也是将来财政要创造环境的,要支付的。第三类数据是环境数据。这个环境不仅仅是我们说的大气这些东西,他包括自然环境、动植物以及物体,以传感器自动釆集为主。物体包括汽车,包括运输物、动植物。
所以,如何收集、保存、维护、管理、分析、共享正在成指数级增长的数据,是我们必须面对的挑战。刚才我问了你们国库处,动态监控数据能有多少字节,能不能有多少G,你们说达不到,还是K级的。大数据是什么概念呢,就是至少是太字节的,从字节来讲是2的40次方字节,是相当大的数量。大数据时代来了,我们要搞这些数据,对我们政府有什么意义呢。将来引导我们政府前进的是基于实证的事实,不是意识形态,也不是利益集团在政府决策过程中施加的影响。我们基于这些数据说话,将使政府更有效率、更加开放、更加透明。
这个书里举了很多例子,我看了之后非常有启发。比如讲美国的交通史。1966年,美国有9400万辆汽车时,交通事故死了5万人,这是他的最高峰;但是到了2009年,他是2亿4000万辆汽车,但是只死了3万人。汽车大幅度增加,死亡人数却大幅度减少。我不知道我们现在多少辆车,反正一年死十几万人是有的。为什么下降了,就是他们通过对数据的分析。分析以后发现,一年12个月,5、6、7、8月事故率是最高的;每一周,礼拜六、礼拜天事故率最高;一天里边,下午6点到晚上9点事故率最高;什么天气是事故率最高的,当然跟你们想的都不一样,不是下雨天、雨雪天,正常天气事故率是最高的。然后什么年龄段事故率最高,就是24岁—35岁,44岁—55岁,这两个年龄段最高。这个分析过以后,然后有针对性的措施。当然有些数据,他分析的更具体。为什么有的州高,有的州低,发现事故率高的州高速公路弯比较大,事故都是右侧的事故,就是因为弯比较大。有的事故率低,就是发现这个地方警察经常查系安全带,所以事故率低,那个事故率高的地区是没查安全带所以一系列数据收集分析,改进以后结果事故率就下降了。车子从不到1个亿,增加到2亿4600万,但是死亡率下降。这个非常有用啊。
另外,美国人现在开始在数据上打假,美国人的福利比较好,所以把所有的数据都输进去,然后通过计算机设计软件,一旦发现,馬上就去查福利滥用的情况。社会治安也是利用数据去分析,包括911之后的情况。现在美国已在有专门的机构,来负责收集、研究、使用数据,商业也好,政府也好,来研究这个数据的发展。
比如沃尔玛,沃尔玛通过他的销售数据,分析过以后发现,每到礼拜六、礼拜天,有两样东西是成比例的增长,啤酒和尿布。关于这个,你知道为什么呢,后来就发现,礼拜六、礼拜天常常就是女人在家做事,男人到购物店买东西,买东西就买尿布,买尿布的时候男人就想,挺辛苦的买点啤酒犒劳自已。所以啤酒和尿布就一块增加了。你很多是想不到的。数据你注意使用它。
马云最近来找我聊了一次。他当时就跟我说,你08、09年到杭州去,让我到广州来卖货,我跟你说说这几年卖广货的效果。08年一年,他在淘宝网卖了177亿广货,今年可以卖到1700亿,就是四年是十倍。另外聊一聊他就讲,他现在他觉得数据是他的竞争力。他当然讲了个例子。他说你想不到,全中国比基尼卖的最好的是哪几个省。然后就说,你绝对想不到。一般人认为,肯定卖的好的是广东,海南岛,他说卖的最好的从淘宝上看,是新疆和内蒙。他说,估计每一个男人,都要给他的夫人、情人和对象有一个美好的憧憬,有一天我带你去下海。当然这是他的一种解释,但是能反映什么呢,就是这些数据和你想象的不是一个概念。如果商家掌握了这个东西,其实你比基尼广告的重点不要放在广东做,你放到新疆、内蒙去做啊,这效果可能就不大一样了。
对于政府工作来讲,同样如此。我看这个书里写,流感对于美国人是一个非常大的事情。美国人对于的流行病学的各种调查就是掌握不了流感的规律。后来想到从2万多家药店的销售记录中间,把这个数据拿来、分析,分析后发现,一般在全国流行性感冒的前两周,药店的感冒药增加的比较快。也就是增加的比较快两周以后,全国的流行性感冒来了,政府就需要增加对流行性感冒预防的措施。他们就分析为什么呢,因为大部分人开始有感冒症状的时候,没有意识是个问题,就到药店买点药吃。一旦增加了,药店的药增加了,估计下两个星期后,医院的人就要增加了,这个时候预防措施就要开始了。
所以这个数据是非常重要的问题,我们将正式进入一个数据为王的时代。李嘉诚也是有这样的看法,他前不久给我写了一封信,说人工智能和大数据技术的普及化,势必令不同行业和教育系统的范式转变。他说这个范式我估计是香港说法,就是模式。不同行业都是这样的,你比如讲他这个书里讲的,政府掌握数据往往关系到行业标准,比如单位牛奶中的蛋白质含量,菌落群数应该是多少,饮用水里面能混杂多少含量的微量元素,新鲜蔬菜能带多少指标的杀虫剂残留,每个指标的变化,即使只有零点几,都会影响到一个行业的竞争,改变一个产业。这个数据非常重要。而这个数据最后实际上都涉及到利益,所以你政府掌握不掌握这些数据,在制定政策的时候,特别是个各个行业、企业利益博弈的时候,你可能就会陷入被动。你们看这本书里也有这样的例子。在美国,存在一个庞大的说客集团。华盛顿最大的产业,第一是旅游,第二就是说客。他们代表企业和行业的利益,游说政府的政策制定,这里面都涉及到利益。政府不掌握这些数据,就有可能被掌握这些数据的行业集团所影响操控,政府的决策就不可能科学,特别像财政,更是如此。
而起我想说,政府的数据是要公开的,当然公开也是一种博弈。刚才我已经讲过,我们掌握的一些数据,比如“三公”经费信息,公开之后,它的好处是什么呢,实际上是创造一个社会帮助我们改进工作的机会。最近我看了些书,有个一观点,下一步的改革,实际上就是政府要调动民间的力量对利益格局进行调整。因为你单靠政府已经搞不动了,那怎么办呢,就是要让社会、民间参与其中。其实我们公开“三公”经费信息,就是调动社会力量促进我们改进工作。
这个东西你们可以去看那本书,书中就有这样的例子。比如说奥巴马上任后就搞了个信息公开化的承诺,故事你们可以在书中找,过程很有意思。最后在120天内搞了个规划,吵得一塌糊涂,跟我们搞放权一样,大家在公开的场合都赞成,一到具体要公开本部门的信息的时候都说,我这个部门的数据不能公开。但是美国的联邦政府的首席信息官维伟克·昆德拉,一个年轻的印度裔移民,他很有办法,他先从一些没有争议的数据开始,并快刀斩乱麻,推出了一个技术平台并不断完善。一旦数据公开走上轨道了,群众就会监督,向更多部门和领域提出数据公开的要求。美国有个信息自由法,只要人家向部门提出信息公开的要求,相关部门就要回复,部门不愿意公开要说明理由,人家接受就可以不公开,人家不接受可以去起诉部门。所以现在政府公布的信息越来越多。
公开的好处是什么呢?以美国的民航业为例,美国民航的正点率比我要高很多了,它是如何做到的呢?现在美国交通部开放了全美航班起飞、到达、延误的数据,那当然也是海量的。公布之后,有人就利用这些数据开发了一个航班延误时间的分析系统,并向全社会免费开放。通过这个可视化的软件,任何人都清楚的看到:晚点最少是哪个航空公司,晚点最多的是哪个航空公司,一般晚点多少时间;在各个航线上,哪个晚点最多,哪个晚点最少,哪个正点率最高,它把这些排列出来,一目了然。这个是民间开发的软件,不是政府开发的,政府只是把基础数据公开了。这样做的结果呢,就是美国民航的误点率逐步减少,满意率不断提高,而且政府也没有承担软件开发的费用,只是把这个信息公开了,却达到了三赢的目的。这里面能看出个规律,部门公开数据,公众提出意见,部门根据意见再改进工作,当然了,这里面也有很多博弈。
这本书中还写到,万维网之父,蒂姆·萧伯纳·李在2009年的一次演讲中说过一句话,“原始数据,现在就要!”我看到这里,很受启发,我们中国人,包括在各个领域,对数据的概念和作用的重视,还是很不够,从某种意义上来说是我们做这个工作的重要契机。就像改革开放初期,我们的农民对土地的重要性认识不足一样,我们那时有意识地把土地拿在手里。欧广源当县委书记的时候,搞了几千亩地,到现在都觉得当时很有远见,那时候征地费用没那么高,大家也没觉得地会像现在这么值钱,结果你意识到了,你把这些地拿到手了,就成为后来竞争的重要资源。现在我们全社会也没有意识到这些数据的重要,你们的工作对象也没有意识到这一点,这个时候,是收集数据最好的时候。
作者在书的最后,提出希望我们国家重视数据。他写到中国人数据意识的淡薄由来已久,甚至可以称之为国民性的一部分。胡适曾经写过,我们中国人是“差不多”先生,什么事情都“差不多”就行,不注意数据的收集、整理和使用。他举了个例子,麦肯锡公司以2010年度各国新增的存储器为基准,对全世界的大数据的分布做了一个研究和统计,中国2010年度新增的数据量为250拍(PB,1PB=1204TB=250字节),不及日本的400拍、欧洲的2000拍,和美国的3500拍相比,更是连十分之一都不到。但是我们中国却是全世界第一手机大国,第一互联网用户大国,实际上我们只是把这些数据收集起来,就能发现很多问题。我说过,上次分析经济形势的时候,让移动和联通把相关数据拿来,就可以看出许多问题。
所以我就想,如果我们能像三十年前政府可以轻易的拥有土地一样,现在抓紧时间搜集数据、使用数据,这是竞争的一个新的制高点。因为再下一步,考虑到隐私权的问题,将来再收集个人数据就没有那么容易了,另外单位里面的数据也可能会存在越来越多的保护举措。所以我觉得,现在财政的数据收集、分析、使用以及公布会极大的促进收入、改进支出、提高财政工作水平。
所以我希望大家能认真读一读这本书,带着问题读、带着想法读,怎么样促进财政数据的收集,怎么样加强财政数据的分析,怎么样挖掘数据背后有利于我们增加收入、改进支出的有用因素,然后逐步推进财政数据的公布,调动全社会监督的力量,使我们的工作水平不断提高。将来这个社会是个开放的社会,有兴趣的人他会提出意见。
我相信,你们拿这本书去看一看,如果能带着问题去想,带着问题去做,会比我今天讲的所有内容都会对财政工作有更大的益处,而且不是一天,将会发挥长期的作用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28