
对大数据分析有哪些流行误解?
大数据是一个新概念,大数据产生的背景是整个社会走向数字化,特别是社交网络和各种传感设备的发展。大数据分析拥有自身的特点,与计量经济学既有区别又有联系。当前对大数据的分析存在许多流行观点,但其中很多核心观点都值得商榷。
大数据产生的背景是整个社会走向数字化,特别是社交网络和各种传感设备的发展。云计算和搜索引擎的发展,使得对大数据的高效分析成为可能,核心问题是如何在种类繁多、数量庞大的数据中快速获取有价值信息。大数据在社会分析、科学发现和商业决策中的作用越来越大,金融只是其中的一个应用领域。
什么是大数据
大数据是一个新概念,英文中至少有三个名称:大数据(big data)、大尺度数据(big scale data)和大规模数据(massive data),至今未形成统一定义。但一般认为大数据具有四个基本特征(即所谓4V特征):数据体量庞大(volume)、价值密度低(value, 也有人理解成应用价值巨大)、来源广泛和特征多样(variety)、增长速度快(velocity, 也有人理解成需要高速分析能力)。
从学术角度,对大数据的讨论基本属于数据科学(Data Science)和数据挖掘(Data Mining)的范畴。
大数据的主要类型:第一类是记录数据,即记录的汇集,其中每个记录包含固定的数据字段(或属性)。比如,计量经济学中的横截面数据,文档数据,事务数据或购物篮数据;第二类是基于图形的数据,包括带有数据对象之间联系的数据和具有图形对象的数据,比如网页链接、化合物结构;第三类是有序数据,包括时序数据、序列数据、空间数据。比如,宏观经济指标序列,金融价格序列,基因组序列,词或字母的序列,同一时点上从不同的地理位置收集的气象数据(温度、湿度、气压等)。
大数据分析的主要任务:第一类是预测任务,目标是根据某些属性的值,预测另外一些特定属性的值。被预测的属性一般称为目标变量或因变量,被用来做预测的属性称为解释变量和自变量;第二类是描述任务,目标是导出概括数据中潜在联系的模式,包括相关、趋势、聚类、轨迹和异常等。描述性任务通常是探查性的,常常需要后处理技术来验证和解释结果。具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。
大数据分析与计量经济学的差异与联系
大数据分析与计量经济学既有差异又有联系。
两者的差异表现为:第一,两者处理的数据类型不同。计量经济学处理结构型数据,主要包括横截面数据、时间序列数据和面板数据,一般能以excel表格的形式呈现,而且表格的行列都有清晰的经济学含义,有一致统计口径。大数据分析能处理很多非结构型数据,包括文档、视频、图像,一般难以用excel表格的形式呈现。但这些非结构型数据需要量化后才能分析,在量化中一般伴随着信息损失。
第二,两者分析重点不同。计量经济学分析的重点是假设检验,核心理念与波普的证伪主义非常接近。计量经济学就是通过假设检验,来证伪或支持(注意不是证实)某个经济理论。相比之下,大数据分析更具实用主义色彩。预测在大数据分析中占有很大比重。对预测效果的后评估也是大数据分析的重要内容。
大数据分析与计量经济学的内在联系也不容忽视。在对随机问题的处理上,它们没有本质差别,基础理论都是概率论和数理统计。
对大数据分析的主流误解
舍恩伯格与合作者的《大数据时代》非常流行,但里面的很多核心观点都值得商榷。
第一,他们认为,大数据分析不是针对随机样本,而是全体数据。尽管数据收集和分析手段足够发达后,对全部数据的收集和分析成为可能,但从成本收益上衡量,这样做不是总有必要。根据中心极限定理,统计分析质量与样本数量之间存在平方根关系。比如,样本数量提高100倍,分析质量提高10倍。而统计分析工作量与样本数量之间存在线性关系。比如,样本数量提高100倍,存储和计算量一般增加100倍。这样,样本数量增长到一定程度后,新增工作量对应的成本就会超过质量提高产生的好处。因此,通过科学设计的抽样调查获得有代表性的样本,在大数据分析中仍有价值。
第二,他们还认为,大数据分析不是因果关系,而是相关关系。这个说法在统计学中是老生常谈,不是什么新观点。统计学基于相关关系,只能被用来证伪因果关系,而不能被用来证实因果关系。大数据分析的基础理论也是概率论和数理统计,从根本上就属于相关关系的范畴。
第三,大数据分析也不是万能的。基于大数据的预测可以抽象表述为:用 表示已知信息,用 表示未知信息,寻找关于 的函数 作为 的预测。预测误差是 ,用 (类似于均方误差)来衡量预测效果。概率论有一个基本结论:
对任意 ,总有 ,其中等号仅当 时才成立,所以 也被称为最佳预测(best predictor)。
可以看出两点结论:首先,大数据分析中,各种算法的核心任务是使 尽可能接近理论上的最优预测 ;其次,即使在最优预测上, 代表的预测误差仍不能被消除,是内生于信息结构的。比如,即使信息技术非常发达,如果现实世界中仍有部分信息不能被数字化(从而不能用在大数据分析中),这部分被“尘封”的信息就决定了大数据分析的有效边界。
第四,大数据能降低信息不对称的程度,但不能消除随机性(不确定性);有助于评估风险(未来遭受损失的可能性,其中损失分布可计量),但不能消除奈特式不确定性(其中损失分布不可计量)。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
破解游戏用户流失困局:从数据洞察到留存策略 在游戏行业竞争白热化的当下,用户流失率已成为衡量产品健康度的核心指标。一款游 ...
2025-08-11PyTorch 中 Shuffle 机制:数据打乱的艺术与实践 在深度学习模型训练过程中,数据的呈现顺序往往对模型性能有着微妙却关键的影响 ...
2025-08-11数据时代的黄金入场券:CDA 认证解锁职业新蓝海 一、万亿级市场需求下的数据分析人才缺口 在数字化转型浪潮中,数据已成为企业核 ...
2025-08-11DBeaver 实战:实现两个库表结构同步的高效路径 在数据库管理与开发工作中,保持不同环境(如开发库与生产库、主库与从库)的表 ...
2025-08-08t 检验与卡方检验:数据分析中的两大统计利器 在数据分析领域,统计检验是验证假设、挖掘数据规律的重要手段。其中,t 检验和卡 ...
2025-08-08CDA 数据分析师:解锁数据价值的专业力量 在当今这个数据爆炸的时代,数据已成为像石油一样珍贵的战略资源。而 CDA 数据分析师, ...
2025-08-08人工智能对CDA数据分析领域的影响 人工智能对 CDA(Certified Data Analyst,注册数据分析师)数据分析领域的影响是全方位、多层 ...
2025-08-07SPSS 语法使用详解 在当今数据驱动的时代,SPSS( Statistical Package for the Social Sciences)作为一款功能强大的统计分析软 ...
2025-08-07SASEM 决策树:理论与实践应用 在复杂的决策场景中,如何从海量数据中提取有效信息并制定科学决策,是各界关注的焦点。SASEM 决 ...
2025-08-07CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-07大数据时代对定性分析的影响 在大数据时代,海量、多样、高速且低价值密度的数据充斥着我们的生活与工作。而定性分析作为一 ...
2025-08-07K-S 曲线、回归与分类:数据分析中的重要工具 在数据分析与机器学习领域,K-S 曲线、回归和分类是三个核心概念与工具,它们各 ...
2025-08-07CDA 数据分析师考试全解析 在当今数字化时代,数据已成为企业发展的核心驱动力,数据分析师这一职业也愈发受到重视。CDA 数据分 ...
2025-08-07大数据时代的隐患:繁荣背后的隐忧 当我们在电商平台浏览商品时,系统总能 “精准” 推送心仪的物品;当我们刷短视频时,算法 ...
2025-08-07解析 F 边界检验:协整分析中的实用工具 在计量经济学的时间序列分析中,判断变量之间是否存在长期稳定的均衡关系(即协整关系) ...
2025-08-07CDA 数据分析师报考条件详解:迈向专业认证的指南 在数据分析行业蓬勃发展的当下,CDA 数据分析师认证成为众多从业者提升专业 ...
2025-08-07通过 COX 回归模型诊断异常值 一、COX 回归模型概述 COX 回归模型,又称比例风险回归模型,是一种用于生存分析的统计方法。它能 ...
2025-08-07评判两组数据与初始数据准确值的方法 在数据分析与研究中,我们常常会面临这样的情况:需要对通过不同方法、不同过程得到的两组 ...
2025-08-07CDA 数据分析师行业标准:构建数据人才的能力坐标系 在数据驱动决策成为企业核心竞争力的时代,CDA(数据分析师)行业标准作为 ...
2025-08-07反向传播神经网络:突破传统算法瓶颈的革命性力量 在人工智能发展的历史长河中,传统算法曾长期主导着数据处理与模式识别领域 ...
2025-08-07