
大数据引起了变革 大数据时代来临
当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得巨大价值的产品和服务,或深刻的洞见。
1、震人心魄的数据
2003 年,人类第一次破译人体基因密码的时候,辛苦工作10年才完成了三十亿对碱基对的排序;大约10年后,世界范围内的基因仪每15分钟就可以完成同样的工 作。在金融领域,美国股市每天的成交量高达70亿股,而其中三分之二的交易都是邮件里在数学模型和算法之上的计算机程序自动完成的。
在2007年,所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据;在2000年时,数字存储信息仍只占全球数据量的四分之一;当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。
2、大数据的精髓
大数据带给我们的三个颠覆性观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。
A.不是随机样本,而是全体数据:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(随机采样,以前我们通常把这看成是理所应当的限制,但高性能的数字技术让我们意识到,这其实是一种人为限制);
B.不是精确性,而是混杂性:研究数据如此之多,以至于我们不再热衷于追求精确度;之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,随着规模的扩大,对精确度的痴迷将 减弱;拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察 力;
C.不是因果关系,而是相关关系:我们不再热衷于找因果关系,寻找因果关系是人类长久以来的习惯,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。
3、大数据的核心是预测
大数据的核心就是预测,它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。大数据不是要教机器人像人一样思考,而是把数学算法运用到海量的数据上来预测事情发生的可能性。
历史上,因为记录、储存、分析数据的工具都不够好,为了让分析变得简单,我们选择了把数据量减少,统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。
1、传统抽样的精确性
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大,大致原因是当样本数量达到某个值后,我们从新个体身上得到的信息会越来越少,这与经济学中的边际效应类似。
2、 随机采样的问题
随机采样有一个很大的问题:人们只能从随机采样中得出事先设计好的问题的结果,调查得出的数据不可以重新分析以实现计划之外的目的,而且一旦采样过程中存在任何偏见,分析结果就会相去甚远。
3、样本=总体
采 样的目的就是用最少的数据得到最多的信息,当我们可以获得海量数据的时候,它就没有什么意义了;生活中真正有趣的事情经常藏匿在细节之中,而采样分析却无 法捕捉到这些细节(因为采样不能得到计划之外的东西);大数据建立在掌握所有数据,至少是尽可能多的数据的基础上,所以我们就可以正确地考察细节并进行新的分析。
执迷于精确性是信息缺乏时代和模拟时代的产物,只有5%的数据是结构化且能适用于传统数据库的,如果不能接受混乱,剩下的95%的非结构化数据都无法被利用。
1、小数据时代的精确性
在 “小数据时代”,人们收集、处理数据的能力有限,对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量(收集信息的有限意味着细微错误会被放 大,甚至有可能影响整个结果的准确性)。人们创造了很多精确的系统,这些系统试图让我们接受一个世界困乏而规整的惨象——假装世间万物都是整齐地排列的; 事实上现实是纷繁复杂的,天地间存在的事物也远远多于系统所设想的。
2、 我们要的是概率
我 们总是为了一个“答案”而活着,精确性似乎一直是我们生活的支撑,但认为每个问题只有一个答案的想法是站不住脚的。“一个唯一的真理“的存在是不可能的, 而且追求这个唯一的真理是对注意力的分散。大数据也许是拯救我们的关键方法:大数据通常用概率说话,而不是板着“准确无疑”的面孔。
在大数据时代,我们不必知道现象背后的原因,而是要让数据自己“发声”。我们不再一味追求人们为什么这么做,知道人们为什么这么做可能是有用的,但这个问题目前并不是很重要,重要的是我们能通过大数据分析出人们的相关行为。
1、相关关系
相 关关系的核心是量化两个数据值之间的数理关系:相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加;相关关系弱就意味着当一个数据值增 加时,另一个数据值几乎不会发生变化。相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。相关关系没有绝对,只有可 能性。
2、人们的直接目的就是寻找因果关系
人 们的直接愿望就是了解因果关系,我们已经习惯了信息的匮乏,故此亦习惯了在少量数据的基础上进行推理思考。以前我们用实验来证明因果关系,它是通过是否有 诱因来分别观察所产生的结果是不是和真实情况相符。但是,凡事皆有因果的话,那么我们就没有决定任何事的自由了。如果说我们做的每一个决定或者每一个想法 都是其他事情的结果,而这个结果又是由其他原因导致的,以此循环往复,那么就不存在人的自由意志这一说了——所有的生命轨迹都只是受到因果关系的控制了 ——这显然是不正确的。
3、 相关关系和因果关系并不矛盾
相 关关系分析本身意义重大,同时它也为研究因果关系奠定了基础,通过找出可能相关的事物,我们可以在此基础上进行进一步的因果关系分析,如果存在因果关系的 话,我们再进一步找出原因。在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因 果关系,找出背后的“为什么”。在小数据时代,我们会假象世界是怎么运作的,然后通过收集和分析数据来验证这种假象;在大数据时代,我们会在数据的指导下 探索世界,不再受限于各种假想;我们的研究始于数据,也因为数据我们发现了以前不曾发现的联系。
A.大量的数据意味着“理论的终结”:用一系列的因果关系来验证各种猜测的传统研究范式已经不实用了,如今它已经被无需理论指导的相关关系研究所取代;
B.现在已经是一个有海量数据的时代,应用数学已经取代了其他的所有学科工具,而且只要数据足够,就能说明问题,如果你有一拍字节的数据,只要掌握了这些数据之间的相关关系,一切就迎刃而解了;
C.“理论的终结”:所有的普遍规则都不重要了,重要的是数据分析,它可以揭示一切问题;但大数据并不意味着理论已死,因为大数据就是在理论的基础上形成的。
在一个可能性和相关性占主导地位的世界里,专业性变得不那么重要了;行业并不会消失,但是他们必须与数据表达的信息进行博弈。
1、 数据化:一切皆可量化
大数据的核心发展动力来源于人类测量、记录和分析世界的渴望。为了得到可量化的信息,我们要知道如何计量;为了数据化量化了的信息,我们要知道怎么记录计量的结果。如今我们经常把“数字化”和“数据化”这两个概念搞混,但是对这两个概念的区分实际上非常重要:
A.数据化:一种把现象转变为可制表分析的量化形式的过程;
B.数字化:把模拟数据转换成0和1表示的二进制码;
数字化带来了数据化,但是数字化无法取代数据化;数字化是把模拟数据变成计算机课读的数据,和数据化有着本质的不同。
2、当方位变成了数据
1978 年见证了一个伟大的转变,当时构成全球定位系统(GPS)的24颗卫星第一次发射成功,通过与技术手段的融合,全球定位系统能够快速、相对低价地进行地理 定位,而且不需要任何专业知识。地理位置信息汇集起来,可能会揭示事情的发展趋势;位置信息一旦被数据化,新的用途就犹如雨后春笋般涌现出来,而新价值也 会随之不断催生。
3、 当沟通变成数据
社交网络平台不仅给我们提供了寻找和维持朋友、同事关系的场所,也将我们日常生活的无形元素提取出来,再转化为可作新用途的数据。数据化不仅能将态度和情绪转变为一种可分析的形式,也可能转化人类的行为,这些行为难以跟踪,特别是在广大的社区和其中的子人群环境中。
A.Facebook将关系数据化——社交关系在过去一直被视作信息而存在,但从未被正式界定为数据,直到Facebook“社交图谱”的出现;
B.Twitter通过创新,让人们能轻易记录以及分享他们零散的想法,从而使情绪数据化得以实现。
4、“取之不尽,用之不竭“的数据创新
尽 管数据长期以来一直是有价值的,但通常只是被视作附属企业经营核心业务的一部分,或者被归入知识产权或个人信息中相对狭窄的类别,但在大数据时代,所有数据都是有价值的。我们的时代,数据收集不再存在固有的局限性,由于存储成本的大幅下降,保存数据比丢弃数据更加容易,这使得以较低成本获得更多数据的可能 性比以往任何时候都大。不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理,信息不会像其他物质产品一样随着使用而有所损耗。 数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可用于其他目的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
人工智能对CDA数据分析领域的影响 人工智能对 CDA(Certified Data Analyst,注册数据分析师)数据分析领域的影响是全方位、多层 ...
2025-08-07SPSS 语法使用详解 在当今数据驱动的时代,SPSS( Statistical Package for the Social Sciences)作为一款功能强大的统计分析软 ...
2025-08-07SASEM 决策树:理论与实践应用 在复杂的决策场景中,如何从海量数据中提取有效信息并制定科学决策,是各界关注的焦点。SASEM 决 ...
2025-08-07CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-07大数据时代对定性分析的影响 在大数据时代,海量、多样、高速且低价值密度的数据充斥着我们的生活与工作。而定性分析作为一 ...
2025-08-07K-S 曲线、回归与分类:数据分析中的重要工具 在数据分析与机器学习领域,K-S 曲线、回归和分类是三个核心概念与工具,它们各 ...
2025-08-07CDA 数据分析师考试全解析 在当今数字化时代,数据已成为企业发展的核心驱动力,数据分析师这一职业也愈发受到重视。CDA 数据分 ...
2025-08-07大数据时代的隐患:繁荣背后的隐忧 当我们在电商平台浏览商品时,系统总能 “精准” 推送心仪的物品;当我们刷短视频时,算法 ...
2025-08-07解析 F 边界检验:协整分析中的实用工具 在计量经济学的时间序列分析中,判断变量之间是否存在长期稳定的均衡关系(即协整关系) ...
2025-08-07CDA 数据分析师报考条件详解:迈向专业认证的指南 在数据分析行业蓬勃发展的当下,CDA 数据分析师认证成为众多从业者提升专业 ...
2025-08-07通过 COX 回归模型诊断异常值 一、COX 回归模型概述 COX 回归模型,又称比例风险回归模型,是一种用于生存分析的统计方法。它能 ...
2025-08-07评判两组数据与初始数据准确值的方法 在数据分析与研究中,我们常常会面临这样的情况:需要对通过不同方法、不同过程得到的两组 ...
2025-08-07CDA 数据分析师行业标准:构建数据人才的能力坐标系 在数据驱动决策成为企业核心竞争力的时代,CDA(数据分析师)行业标准作为 ...
2025-08-07反向传播神经网络:突破传统算法瓶颈的革命性力量 在人工智能发展的历史长河中,传统算法曾长期主导着数据处理与模式识别领域 ...
2025-08-07MySQL 统计连续每天数据:从业务需求到技术实现 在数据分析场景中,连续日期的数据统计是衡量业务连续性的重要手段 —— 无论是 ...
2025-08-07抖音数据分析师:驱动平台增长的幕后推手 在抖音这个日活用户数以亿计的超级平台上,每一次用户的滑动、点赞、评论,每一条 ...
2025-08-07基于 SPSS 的中介效应分析结果解读:揭示变量间的隐性关联 在社会科学与自然科学研究中,变量之间的关系往往并非简单的直接作用 ...
2025-08-07正态分布与偏态分布的核心区别解析 在统计学中,数据的分布形态是理解数据特征、选择分析方法的基础。正态分布与偏态分布作为两 ...
2025-08-07CDA 一级考试内容详解 CDA(Certified Data Analyst)即数据分析师认证,一级考试作为该认证体系中的入门级别考试,主要面向零基 ...
2025-08-07中介分析的 SPSS 结果解读:从原理到实践 在社会科学、医学、心理学等领域的研究中,变量之间的关系往往并非简单的直接影响,而 ...
2025-08-07