京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据正在加速落地。中国政府出台大数据刺激计划只是时间早晚问题,企业家正在通过各种渠道去影响政府,希望其尽快承担起大数据开放和利用的牵头职责。
大数据从民到官,寻找新大陆
两会期间,与大数据相关的提案呈现出井喷之势。李彦宏在政协记者会上表示,政府应该把更多和人民生活有关的数据资料,公开的放到网络上;雷军则直接建议将大数据纳入国家战略,推动大数据切实地用起来;科大讯飞刘庆峰建议国家建设声纹数据库进行大数据反恐。张近东、马化腾、杨元庆的提案也与数据应用有着紧密联系。
大数据的重要性正在从科研理论群体转向政府决策部门,而中间的桥梁是企业。这种自下而上的推动与美国的大数据发展走的是截然不同的道路。最终仍将走到相同的目的地:政府即是大数据产业的规划指导者,也是实践者,殊途同归。
一方面,政府管理国家的过程中不断收集到海量数据并存档在案;而另一方面,政府又需要不断去统计、分析、预测这个国家的一些宏观情况,辅助决策。公安、媒体、金融、卫生、教育、贸易等行业都在不断积累数据,政府因为监管的需要又会对这些数据进行汇总。统计局,测绘局、气象局等部门则是直接在做数据的收集、分析或者利用。
政府掌握的海量数据如果能进行适度地开放,加载互联网便捷的查询能力和挖掘能力,将会释放出巨大的价值。一些原本未曾主动收集的数据,政府如果推动其收集,也将爆发巨大能力。马航失事便被一些人士认为是落后的数据同步技术,而声纹数据库如若建立则可以进行反恐,建立指纹数据库则可帮助打击儿童拐卖。
这些数据拥有巨大的社会、科研、民生和经济价值。
大数据成为新的调查方式,辅助决策
两会期间,中国政府的官方媒体CCTV在新闻报道中正在越来越多地利用大数据的研究成果,例如百度指数、百度新闻热搜榜。基于大数据的分析报告更加全局、客观和直观。数据是世界的真实映射。分析报告则反映了世界在空间和时间维度上的特性。大数据真正的优势是,它的数据收集、统计是自动化的,分析是智能化的挖掘。
新闻和大数据的关联,基于以下几个特性实时性、海量样本、数据挖掘、真实表达等。因此大数据成为媒体报道热衷的新手段快、准、新、真。百度积累的是表征人们需求的搜索数据,反映民意和国情;阿里掌握着交易数据和信用数据,甚至可以预知经济走向,金融危机前马云便可基于B2B交易数据的变化,提前预知,这便是阿里的大数据场景;腾讯擅长社交和关系数据。在新闻媒体上都有发挥空间。
在大数据的运用上,新闻媒体充当了先锋派,但大数据的价值绝不仅仅止于此。
大数据是调查的一种手段。两会代表问政建议(提案、议案),政府部门决策,都在越来越多地依托百度这样的大数据服务,从数据挖掘中获得科学决策的智力支持。
马化腾的利用互联网技术推进食品安全监督,如果能利用RFID射频技术等对食品从种植到成长到运输到销售整个流程进行数据收集,食品安全监督自然更容易。还可以定期基于大数据分析出不同地域、不同类型、不同品牌的食品安全问题,进行预警提醒。
基于空间和时间两个纬度统计空气质量变化,可以辅助环保部门进行空气治理规划。基于高中生专业意向的收集统计,则可以指导教育部门和高校进行更科学合理的招生计划。
互联网大数据谁先落地?
搜索引擎天生就在做数据生意。百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。百度是汇聚国情、民意的大数据的最大平台,包括搜索及点击行为、贴吧知道百科等UGC内容、基于位置服务(LBS)数据、收集到的海量第三方的网站数据,甚至包括微博)。它拥有一座需求和民意数据的金矿。
阿里更多的是电商和信用相关的数据,在经济、金融、贸易等相关领域的影响力不容小觑;腾讯的则是社交数据,由于封闭的特性使之数据量不可能贯穿整个(移动)互联网,但其数据在舆情监测、广告营销等方面仍十分具有价值。
整体而言,百度更容易落地大数据。数据优势主要有,
1.量大、面广:百度是中国流量排名第一的网站,在移动端拥有超过14个过亿的App。它们均会形成数据的积淀;数十万台服务器组成的爬虫集群每天不遗余力地到处去收集优质数据。阿拉丁计划则是鼓励站长主动将数据接入百度,移动端则是百度云,App通过百度云的LBS等服务为其贡献数据。海量的数据支撑着样本的有效性。
2.及时甚至超前:实时反馈,数据收集、回传、分析在物联网、4G技术和云计算的支持下,将会更加容易。相比之下,传统调研有时滞。而基于海量大数据的运算结果甚至可以可以预测未来,例如Google流感,百度迁徙,Twitter股市。
3.调研对象跟踪:一般调查只是一次或者几次,很难对一个样本进行持续跟踪。而百度大数据则可以对一个对象进行持续跟踪,进行不同时期纬度的分析。前提是不影响该对象的生活和隐私情况。
4、强大的数据技术:百度是中国最具技术基因的互联网巨头。百度在建立索引过程中需要去解析网页,去理解超链接,去分析原网页文本内容,在处理搜索时需尝试理解用户五花八门的输入请求。这些事情实际上锻炼了百度对非结构化的互联网数据的分析处理能力。而百度在硬件设施,例如集群机房等方面的布局也不含糊。
腾讯的大数据应用主要是用来改进产品,广点通算小试牛刀;阿里则是要做数据的分享交易集市,在搭建数据的流通、收集和分享的底层架构。十分远大的理想,还需假以时日。百度是研究与实践结合,除了百度指数、百度沸点、百度统计、百度迁徙等成功案例之外,李彦宏去年向政治局常委讲解大数据,对百度的大数据能力也是一种肯定。
互联网是冰山一角,大数据更多在BAT之外
央视数据新闻的应用取得成功,值得肯定。但大数据的价值远不止此,它可以支持媒体收集民意,反馈真实世界,它可以帮助BAT开拓新的业务和尝试新的研究。但数据更大的想象空间则是其与政府数据结合,与行业数据结合。大数据在BAT之外。
移动互联网,设备数量爆发式增长。而4G来临,移动互联网的网络瓶颈被突破之后,包括物联网、可穿戴设备、车联网、智能医疗、智能家居等在内的智能硬件产业行将爆发,这些设备将源源不断地产生、收集、回传数据到云端。目前爆发的大数据只能算核弹级别,真正的大数据爆发会是氢弹级别的规模。
在经济方面,移动支付确保了及时、细粒度和全面的交易数据收集,进而可以对经济进行更加准确、有说服力、有时效性的监测。这会影响什么呢?CPI、GDP统计可以细化到分钟,可以进行预警管控。各个行业的交易额、市场份额数据也可自动化统计,而不再是调研公司抽样完成,后者说服力不够。
在教育方面,互联网教育收集更丰富的教育数据。可以进行师资力量的调配,可以针对学习情况对课程进行改进优化,可以基于学生学习的跟踪进行教育研究。
在金融方面,有股市股价预测、存款波动监控、基于保险理赔的大数据分析推出新产品;在工业方面,可以根据市场消费、口碑的大数据了解不同地域、不同性别、不同人群的消费行为特征进行精准营销甚至反向定制。在通信方面,可以根据人群流动情况、话务情况的历史规律动态自动调配基站载波进行节能管理。
地方政府如果能积极开放数据,例如一些信息查询连接到App,则可以提高办事效率和群众满意度;如果能积极利用数据,基于交通大数据进行城市规划、道路规划、红绿灯规划缓解拥堵,基于流感趋势预测进行疾病预警控制,基于用户搜索情况了解本地民意、关注点、舆情等,这比一些官员微服私访收集民意效率更高。
在新闻报道上的大数据应用,是互联网表达民意的一大社会进步,这还远远不够,从春节到两会,大数据是先锋派的新闻界在用,一些大数据先行者例如百度发挥得还不算多,用它的也不多,大都是浅尝辄止。各个行业都应该多利用大数据帮助科学决策。
大数据在经济、社会、民生等领域都大有可为。它不再是云里雾里,不再是纸上谈兵,不再是巨头的游戏,而是落到实处,不断圈入新玩家,探索新模式,创造新价值。虽然大数据在各行各业都存在且具备应用价值,但技术+数据驱动的互联网行业才是排头兵。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01