京公网安备 11010802034615号
经营许可证编号:京B2-20210330
异质性和共性是大数据两大挑战_数据时分析师考试
什么是大数据?大数据究竟能做什么?大数据时代的机会与挑战分别是什么?
如今面对无处不在的大数据,却很少有人可以清楚地回答出以上这三个问题。
日前,以“大数据时代,统计无处不在”为主题的问学讲堂在复旦大学管理学院举行。在此期间,《国际金融报》记者遇见了美国普林斯顿大学运筹与金融工程系系主任范剑青。由于对统计学重要而广泛的贡献,范剑青教授荣获2000年度的COPSS总统奖,该奖为国际统计学领域的最高奖,于2008年当选国际数理统计学会(IMS)主席,是该会创会以来70多位主席中惟一的中国人。
在这位统计学大师级的教授眼中,大数据不仅大,而且很复杂,既有结构性的数据,也有非结构性的数据,与生物、工程、自然科学、社会科学等息息相关。
在接受《国际金融报》记者的采访中,范剑青指出,大数据有两方面富有挑战的问题,异质性和共性。异质性能提供个性化的产品、服务等,共性则存在于不断的变化之中。“研究大数据,不仅能够预测未来,更重要的是探索其中的因果联系。”
大数据没那么美好
大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多;发出的社区帖子达200万个;卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……
更重要的是,数据已经不仅仅是数据本身了,这俨然是一场革命。
“大数据的影响包括数据获得、 数据管理、计算基础建设、计算优化等方面。大数据对统计分析的影响则包括噪声叠加、假相关、内生性、误差、异质性等。”范剑青告诉记者,在大数据时代,机会与挑战并存。
大规模的数据集很有诱惑力,能促使人们展开积极的分析,而且分析者希望能够从中获取有获奖可能性的科学发现。但有时,利用大数据意味着最终得到的是糟糕数据。要从大数据中得出高见,给计算机科学、统计推断方法甚至科学方法本身带来了巨大的挑战。
“当然,计算机领域的科学家通过开发出卓越的计算能力和信息存储技术,让大数据的积累成为可能。但是收集数据及存储信息与理解这些内容并不是一回事。”范剑青指出,了解大数据的真正意义并不等同于对小数据进行解读,就像明白鸟群的行为特征并不能解释一只孤独的海鸥所发出的叫声一样。
范剑青指出,标准的统计检验和计算程序原本是要分析从大的群体中提取的小样本,从而得出科学推断。但是大数据提供的样本极大,有时甚至包括整个群体或者群体的大部分。任务之艰巨会给实施计算过程从而完成统计检验带来问题。
“统计学的梦想,在于找到有效的统计方法,运用合适的计算手段,预测未来。”范剑青向记者表达出了他的统计学梦想。
无法取代传统收集法
目前,阿里、腾讯、京东由于坐拥电商的交易数据、社交信息数据等,都在“试水”利用大数据来搭建信用评价体系。但事实上,基于社交网络上的数据来进行信用评分、描绘一个人的画像,在国际上也没有成功的先例。那么,互联网社交数据究竟靠谱吗?
在范剑青在采访时候表示,“大数据肯定对于信用评估非常有帮助,比如在网上购买了什么东西、社交网络上有哪些朋友、你的朋友的违约程度,把这些相关数据整合在一起,显然可以勾勒出一个人基本的信用情况。但我认为,这也不太可能完全取代传统的数据收集方法,因为人们在网上的行为跟平时在网下的行为不完全是一样的。”
范剑青指出,针对个人信用的评价,美国至少有3家公司在收集相关数据,还有一个独立的公司把这些数据综合在一起。其实,非常关键的就是数据收集,因为人的行为是很多样化的。“在这方面,中国可能刚刚开始起步,最重要的还是央行的征信系统。但我相信,线上与线下的结合可以对于个人信用作出更为合理的评价。”
“过去10年至15年来,基于互联网的信息技术革命已给全人类带来了颠覆性影响,信息科学从某种程度上说,已成为推动经济发展的一个重要引擎。现在还可以预见的是:在未来的几十年时间里,更多与经济社会发展相关的决策,都会被大数据推着走。”范剑青表示,对大数据的研究固然涉及众多学科、领域,但按照目前美国学术界的共同看法,数学、统计学和计算机科学的三者结合是构成分析、研究大数据的基础。
防范金融系统风险
金融危机之后,各国都提高了对金融系统性风险的防范意识,其中大数据便是一个非常有效的工具。
作为大数据领域的专家, 范剑青多次受美国证监会邀请讲授大数据金融相关知识。“金融危机之后,美国相继成立了各种金融研究办公室,目的就是统筹收集各种公司的信贷数据,以及持有的相关金融产品的数据,就像防范恐怖袭击一样,给予金融风险不同等级的社会警示。”
事实上,大数据为金融行业带来的变革将首先体现在两个方面:精准营销。大数据改变信息结构,金融机构通过对客户数据的收集和分析,推出更有个体针对性的服务;风险管控。大数据改变风险管理模式,云计算推进最精确和最低成本的风险测算。这也进一步意味着运营效率和绩效的提升。
2012年,华尔街“德温特资本市场”公司利用电脑程序分析全球3.4亿社交账户的留言,进而判断民众情绪并决定如何处理手中的股票。判断便是:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。2012年第一季度,公司因此获得了7%的收益率。
然而,对于利用大数据预知市场,范剑青仍然持保留意见。
“预知市场是很困难的,这其中包括两方面内容,一是投资,二是投机。在投资方面,一些历史数据或许可以有所帮助,比如市盈率、利率、市场信贷情况等,这些数据对于市场是否存在泡沫可以有一个大概的指导,但金融市场间的定价体系很多程度上还依赖于投资者行为,而投资者行为中究竟有多少投机成分,至少目前没有一个模型可以精确地预测。”范剑青如此指出。
值得注意的是,大数据的发展推动了互联网金融、移动金融等各种新业态的不断涌现。不少以技术为主导的互联网新兴企业也将参与到金融行业中来,一起分享大数据带来的饕餮盛宴。
“互联网的盛行,使得很多操作和信息披露变得特别快,买卖交易也变得更迅速,许多过去需要用几年才能完成的事情,在当今市场中过程便会缩得特别短。”范剑青指出,这也意味着市场的波动性可能会在互联网时代的影响下变得比前几年更大。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16