京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据改变经济预测范式:经济预测中大数据应用的挑战
经济预测是经济学最重要的职能之一,也是政府、企业、个人等进行决策的参考和依据。基于计量经济方法实施的经济预测,特别是宏观经济预测,离不开经济统计的支撑。经济统计是经济预测得以实施的前提,为经济预测提供了最基础的数据指标。
大数据对经济预测的影响涉及数据来源、预测方法、预测结果等几乎每一个环节,在某种程度上改变了常规经济预测所遵循的基本范式。首先,经济预测的数据基础发生很大变化。经济统计不再是数据指标的唯一来源,基于互联网技术产生的搜索数据、社交媒体数据、在线新闻、交易支付数据以及快递服务数据等都可以用于经济预测。其次,数据指标的生成也不再完全依赖传统的抽样调查、经济普查。基于搜索数据、社交媒体数据等网络数据资源可以实时生成不同的数据指标。再次,对经济预测所采用的方法、工具有了新的要求,通常是将传统的计量经济方法与机器学习、统计学习等分析手段相互结合,以适应大数据处理的需要。最后,大数据有助于经济预测结果的改善。一方面,在既有的计量经济预测模型中引入大数据及相应的处理方法,能够较为显著地减少误差、提高预测精度。另一方面,预测的时效性进一步增强。在网络在线数据的支撑下,数据指标的滞后问题得以解决,近乎实时的即时预测已经出现。
搜索数据的应用提高预测精度
谈及搜索数据在经济预测中的应用,必然离不开对谷歌趋势(Google Trends)数据的介绍。谷歌趋势数据是针对某个地区不同时间特定关键词查询数量生成的查询指数,其构造过程大致如下:(1)计算查询份额(Query Share),即某个地区某个时间段包含某个关键词的查询数量占所有查询的比重;(2)生成查询指数(Query Index),将一段时间内查询份额的最高值标准化为100,并将初始时点的查询份额标准化为0。谷歌将搜索查询分成30个一级大类,并进一步细分为250个二级类别,这样便可很容易获得数百个谷歌趋势查询指数,查询指数数据最早可追溯到2004年1月1日。
谷歌趋势数据最早是由著名经济学家哈尔·瓦里安(Hal Varian)引入到经济预测中的。自2008年以来,瓦里安教授与其合作者发布了一系列利用谷歌趋势数据进行经济预测的研究成果,预测内容涉及汽车及零部件销售额、失业救济申领人数、旅行目的地、消费者信心等。其基本思路是,在传统的时间序列预测模型基础上,加入谷歌趋势生成的查询指数,以提高预测精度。瓦里安教授的预测实践表明,借助谷歌趋势,能够有助于即时预测精度的提高。相关事例还表明,在出现拐点时期,加入谷歌趋势指数作为变量,也能取得较好的预测效果。这恰恰是以计量经济模型为基础的常规经济预测一直未解决的难题。
近两年来,越来越多的欧美机构及学者将谷歌趋势数据运用于不同类型经济活动的预测中。例如,德国劳工研究所的学者利用谷歌趋势数据对住房贷款违约比例进行即时预测,发现效果明显优于基础的自回归模型。爱尔兰中央银行的学者利用谷歌趋势的相关概率指标,对其宏观经济预测模型进行随时调整,成功提高了即时预测精度。
除了谷歌趋势数据外,其他搜索引擎如必应、百度等,其搜索数据也被用于经济预测。百度公司推出了与谷歌趋势类似的“百度指数”,相关数据指标也被用于经济预测。2014年,中国科学院大学的几位学者将“百度关键字指数”纳入到他们开发的“中国股票市场预测模型”中,将预测平均误差值从之前的3.8%降低到1.4%。
媒体数据的应用增强预测时效性
大数据处理和分析技术的快速发展,使得来自社交网站、在线新闻等渠道的文本数据也能够被有效整理和量化,并用于经济预测。
荷兰统计局(Statistics Netherlands)的学者尝试利用社交媒体数据对消费者信心指数进行预测。其大致思路是:(1)收集所有推特(Twitter)、脸书(Facebook)、领英(LinkedIn)等社交媒体数据,分别构造“基于社交媒体数据的消费者信心指数”;(2)分析官方统计调查得到的“消费者信心指数”与社交媒体消费者信心指数之间的相关性;(3)基于两者之间的相关关系,以社交媒体“消费者信心指数”对官方统计“消费者信心指数”进行预测。根据分析,以脸书数据构造的指数与官方指数之间不仅高度相关且存在协整关系。以推特数据构造的指数与官方指数同样存在相关关系。与官方指数相比,社交媒体指数最大的优势在于及时性,能够以两周一次甚至一周一次的频率构造并发布。
比利时安特卫普大学的学者通过文本挖掘(Text mining)技术对与宏观经济复苏相关的“经济政策不确定性指数”(Economic Policy Uncertainty Index,EPU)进行改造。文本挖掘的对象是六种来源的佛兰芒语新闻报道。改造后的EPU可用于分析和预测宏观经济复苏情况。
除了宏观经济关联指数的构造和分析外,媒体文本数据还被广泛应用于对金融市场的相关变化进行预测。伦敦大学学院的学者对路透新闻档案、经纪人报告、英格兰银行内部市场评论等文本进行挖掘,聚焦于那些有可能推动金融市场行为变化的叙述和情绪。该学者发现,当兴奋情绪很高而焦虑情绪很少时,往往是金融危机发生的警示信号。法兰克福大学的学者以脸书国民幸福指数(Facebook’s Gross National Happiness,GNH)为基础构造“投资信心指数”(Index of Investment Sentiment)。而GNH本身又是通过对脸书中的情感语汇进行文本分析而构造出来的。研究发现,利用GNH能预测美国股票市场每天回报和交易量的变化情况;一个标准差的GNH指数增加大致能够带来次日股票指数11.23个点的上涨。
其他可挖掘在线数据十分丰富
除了搜索数据、网络媒体数据外,在线销售及支付数据、卫星遥感数据、邮政快递数据等也被应用于经济预测中。
美国麻省理工学院的学者领导了一个名为“十亿价格”(Billion Prices Project,BPP)的研究项目。该项目与网络零售商合作,每天下载成千上万种在线零售商品的实时价格,生成每天的价格指数,可以实现以每天一次的频率发布价格变动和通货膨胀数据。利用BPP在线价格指数,可以较为准确地判断出未来一定时期特别是2—3个月时间内的通货膨胀变化趋势。最值得一提的是,BPP在线价格指数在预测通胀趋势变化拐点方面特别有效。
加拿大麦吉尔大学的学者利用包括银行卡在内的电子支付大数据,通过多个模型的不同组合对加拿大GDP进行即时预测;并以此项工作为基础构建了一个全新的GDP月度数据库,预测精度显著提高。
万国邮政联盟(Universal Postal Union,UPU)的学者将国际邮政物流体系每天所产生的商品交换数据,与每日的国际汇率变动数据相结合,对国际间的电子商务套利行为进行预测分析。这一尝试表明,利用国际邮政物流数据有助于提高预测能力。
在澳大利亚,其官方统计部门正在采取相关措施,以便将特定来源的大数据纳入到常规官方统计体系中。在统计实践中,澳大利亚统计局已经着手构建基于大数据的统计推断框架。一个典型的例子就是,利用遥感数据对澳大利亚的农业数据进行统计和预测。
经济预测中大数据应用的挑战
近年来各国机构和学者的探索表明,利用各种不同来源的大数据能够有效提高经济预测的精度,在某些领域甚至能够进行拐点预测。不过,在经济预测实践中如何更加有效地利用大数据仍然面临诸多挑战。
第一,大数据的可获得性将直接限制大数据在经济预测中的推广应用。无论是政府部门数据还是私人公司数据,都不可能为经济预测者随意使用;对于私人公司数据来说,通常需要通过签订合作协议并严格执行保密条款才能获取数据;至于政府部门公共数据,大多存在开放限制,往往需要通过机构内部人员才能获取数据。
第二,来自搜索查询、社交媒体等不同渠道的非结构化原始数据既杂乱无章,又存在非常复杂的内在关联,将其提炼并转换为结构化的有用信息需要有足够的技巧,并且耗费大量人力、物力和财力。
第三,充裕的数据信息还会带来过度识别问题。以谷歌趋势数据为例,谷歌每天产生的数十亿个查询记录,即便利用谷歌趋势进行分类仍有数百个指数;而每个指数即便从2004年1月开始,至今也最多不过一百多个序列。变量个数大于序列长度,必然导致过度识别问题。
第四,同任何传统经济预测一样,大数据的应用也无法解决“卢卡斯批评”问题。虽然大数据提高了预测精度,但如果预测模型被用于决定采用何种干预政策,那么最终的实际结果可能不会如模型所预测,因为政策的变化会影响到后续行为,而变量之间的关系恰恰是由相应数据所反映。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在分类变量关联分析中(如 “吸烟与肺癌的关系”“性别与疾病发病率的关联”),卡方检验 P 值与 OR 值(比值比,Odds Ratio)是 ...
2025-11-05CDA 数据分析师的核心价值,不在于复杂的模型公式,而在于将数据转化为可落地的商业行动。脱离业务场景的分析只是 “纸上谈兵” ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-04【2025最新版】CDA考试教材:CDA教材一级:商业数据分析(2025)__商业数据分析_cda教材_考试教材 (cdaglobal.com) ...
2025-11-04在数字化时代,数据挖掘不再是实验室里的技术探索,而是驱动商业决策的核心能力 —— 它能从海量数据中挖掘出 “降低成本、提升 ...
2025-11-04在 DDPM(Denoising Diffusion Probabilistic Models)训练过程中,开发者最常困惑的问题莫过于:“我的模型 loss 降到多少才算 ...
2025-11-04在 CDA(Certified Data Analyst)数据分析师的工作中,“无监督样本分组” 是高频需求 —— 例如 “将用户按行为特征分为高价值 ...
2025-11-04当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29