大数据时代数据分析如何进行-CDA数据分析师官网

热线电话：13121318867

大数据时代数据分析如何进行

2016-10-25

大数据时代数据分析如何进行

大数据时代究竟意味着什么？更多数据——理论上，全部数据都可以纳入收集、挖掘、分析和利用的范畴。正如牛津大学网络学院互联网研究所治理与监管专业教授维克托·迈尔-舍恩伯格在其所著的《大数据时代》一书中指出的，“我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机采样”。

《大数据时代》也指出，海量数据纳入分析，必然意味着甄别、筛除，并由此带来误差和相对精确的结果。“误差”和“相对精确”是什么意思呢？基于计算机和互联网的系统服务、软件服务仍不免出现出错乃至面临崩溃，比如，杀毒软件会发生“错杀”、“误杀”，手机里的防骚扰软件有时会对通讯录里边的已有号码开展拦截，最可靠的电子邮箱仍不免将明明很安全的邮件驱逐到“垃圾邮箱”。

纽约大学统计系教授冯启思（Kaiser Fung）在《数据统治世界》一书中，对大数据时代到来背景下，数据挖掘分析所需遵循的统计规律及其应用进行了深入而颇具趣味的探讨。冯启思以反兴奋剂组织为例，更深入的探讨了误差和相对精确问题。

对于反兴奋剂组织而言，“假阴性”、“假阳性”或许是永远无法避免的尴尬，前者指的是服用禁药却通过某种方式主动或检测机构的疏漏，而错误检测为隐性，以类固醇检测为例，每确认一个使用就要漏过十个“假阴性”；后者则指没有服用过禁药的无辜者，却被药检为阳性。“假阳性”与正确的药检隐性的比例达到了1：899。药检检测机构面对的一个消长关系是：假阳性少了，假阴性就多了，反之亦然，即放宽检测的某些指标，可以减少乃至防止无辜者被错检为假阳性的可能；收紧某些指标，就会减少服用禁药者逃过处罚的比率，看上去，这是个均衡的风险等式。实则不然，错检无辜者的假阳性事件，会给体育部门、反兴奋剂组织带来极大压力，招致运动员工会、媒体和公众的强烈抨击；假阴性引起的批评就要少得多，因为没有直接的、个人化的受害者。因此，检测机构会尽量避免假阳性发生，容忍“假阳性”的存在，宁可放过十个，也绝不冤枉一个。

在一些国家和地区，刑事案件侦办以及反恐机构开展中运用到的测谎，则出现了反向偏向，造成大量的无辜者被认定为罪犯或恐怖主义组织成员，为其没有犯下的罪行错误承担责任。值得注意的是，无论是反兴奋剂检测，还是反恐检查，都较早的体现了大数据海量采集数据的理念，应用并不断更新升级数据挖掘与分析的技术，但仍不能避免假阳性和假阴性两类误差带来的极大代价（经济代价和社会代价），甚至可能因错误检测和冤案葬送公众对反恐体系、司法体制的信心。很显然，大数据时代在误差不可避免的情况下，要在假阳性和假阴性两类误差之间取得某种平衡，让误差造成的社会总成本趋于最低，而这也才是相对精确的要义所在。

数据挖掘与数据分析，所对应的是“统计式思维”。冯启思在《数据统治世界》这本书中分别谈及了平均数与差异性、随机模型和相关模型、组别差异、精确与误差、小概率等“统计式思维”涉及到的重要概念。归结他的观点，第一，数据分析要避免陷入平均化误区，要努力辨识发现数据差异性。举例来说，百年一遇的灾害，并不能理解为在一百年内每一年的灾害风险只有1%，事实上很多保险公司在偿付巨灾后的赔款时迅速滑向破产，就源于对灾害风险极端变异性和空间集中性的忽略。第二，要挖掘数据之间的相关性，而不能仅仅停留于因果性。第三，要善于建立标准对数据开展分类分组分析，也就是实现更趋精确的比较。第四，重视风险，但要避免将过多资源投放到防止或争取某些小概率事件发生之上。这些要点不仅是大数据时代值得重视和遵循的数据挖掘分析重要原则，而且也有助于人们更好、更为深入的认识社会复杂系统，借助数据挖掘分析的力量改善工作与生活。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

大数据数据挖掘数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

大数据时代数据分析如何进行

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少涵谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

【CDA干货】MySQL查询不包含指定列的实现方法、实操 ...

【CDA干货】Python中content属性的核心特性、实操应 ...

从零基础到数据科学家：CDA三本官方教材全解读 ...

【CDA干货】资金财务领域本体模型与业务领域模型的 ...

【CDA干货】数字经济下企业数据战略的落地实践与案 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

大数据时代 数据分析如何进行

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少涵谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

【CDA干货】MySQL查询不包含指定列的实现方法、实操 ...

【CDA干货】Python中content属性的核心特性、实操应 ...

从零基础到数据科学家：CDA三本官方教材全解读 ...

【CDA干货】资金财务领域本体模型与业务领域模型的 ...

【CDA干货】数字经济下企业数据战略的落地实践与案 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

大数据时代数据分析如何进行