
为何大数据让人开始怀疑人生
一年多前听说了“大数据”这个词,以为就是“数据大”的意思,随着媒体不断地曝光,以及今年阿尔法狗升级版横扫当今围棋第一人年轻的柯洁之后,对“大数据”的好奇油然而生。
于是从书橱里翻出来这本由舍恩伯格写的“大数据时代”,不指望自己能够读懂读通,但是读总比不读要强,遵循“开卷有益”的传统吧。
今天读的是引言部分。这本书号称“一场生活、工作与思维的大变革”。本书开门见山地说明,大数据在变革公共卫生,变革商业以及变革思维方面,已经出现在我们的生活当中了。大数据开启时代转型。
“大数据时代”举了一个在流行疾病防控的例子。说谷歌公司通过5000万条最频繁检索的词条,与流行病流行传播时期的数据进行了比较,通过分析人们搜索的记录来判断这些人是否患上了流感。
谷歌的研究人员去找到这些特定的检索词条,至于这些词条是否必须是“咳嗽”“发热药物”不是关注重点,这同我们寻找事发原因的常用手法不同,他们关心的是这些特定检索词条的被使用频率与流感在时间与空间上的传播之间的联系。
谷歌公司正好是一个其他公司都无法具备拥有的庞大数据源以及处理能力和统计技术的公司,他们找到了这45个检索词条组合,他们的预测结果的相关性高达97%,同疾控中心一样也能判断它从哪里传播出来,关键是相当及时,可比疾控中心早一两周,这一两周时间的金贵可想而知。
另一个是在商业运用的例子。一位计算机工程师在网上预订机票,坐上飞机后,他发现他的左邻右舍机票都比他订的晚,却比他便宜。
颠覆了他的“机票订的愈早愈便宜”的概念。下了飞机后,他开发了一个预测机票价格的系统。这个系统不需要知道哪些因素导致了机票价格的波动。
比如“周六晚上不出门”之类的原因,比如季节性原因,比如还有很多座位没卖掉的原因。这个系统只是通过其他航班的数据来预测未来机票价格的趋势。
帮助消费者抓住最佳购买时机。它拥有每一条航线每一架飞机内的每一个座位一年内的综合票价的记录的数据,海量的数据支持,为消费者节省了一大笔钱。
这些例子告诉我们都需要海量的数据支持以及存储与处理能力,在五年前或十年前“这都是不可能的”,从这个角度讲,我的理解大数据就是数据大。
大数据的意义并不仅在于此,它是有生命力的。通常数据使用之后就结束了他的使命,比如,飞机降落后,票价数据就没有用了。
但它被收集起来,用于机票预测系统。死了的,没用的数据,可以被巧妙地用来激发新产品和新型服务。
可见只要你改变思维,了解数据的奥秘,而数据只为那些愿意聆听的人所掌握。所以,大数据真正的含义,就是从那些从“静止的,陈旧的”数据中获得新的认知,并创造出新价值。
从信息爆炸的二十世纪以来,随着数据处理能力的爆发式增长,大数据时代的到来已经无可回避。
大数据的核心是什么?作者告诉我们是预测。它有点类似人工智能(机器学习),在书中,预测被定义为把算法运用到海量的数据上来预测事情发生的可能性。
好吧,在之后的章节或许会解释得更清楚。但从人机大战的情况来看,阿尔法狗每一步棋的海量运算后都会给出一个胜率,自动找出一个最好的下法。
没读这本书前,我会把大数据与人工智能当做两个事情,现在看来人工智能只是大数据这顶王冠上的一颗明珠,二而一。
引言的最后一部分讲的是“大数据是大挑战”。大挑战,挑战的是什么?我看就是挑战我们过去的传统思维,固有思维,只有变革思维才能适应大数据时代的到来。
书中说到三个转变,第一个转变随机采样趋于死亡;第二个转变数据之大追求精确度失去意义;第三个转变不再热衷寻找因果关系。
前两个转变依赖于高度发展的数据储存能力与处理能力,我们尚能理解并主动地去适应,但第三个转变却想当头棒喝,我脑海里只有一个词“第三只眼看世界”,已经不是换角度看世界那么简单了。
书中举了两个例子来说明,大数据只告诉我们“是什么”而不是“为什么”。比如机票的例子,你只要知道什么时候买最便宜,无须知道价格涨跌背后的原因;比如有几百万条医疗记录显示“橙汁+阿司匹林”的组合能治疗癌症,找出具体的药理机制就没有这种治疗方法本身来得重要。
可怕就在于不必知道现象背后的原因,只要让数据发声。让数据发声,意味着数据成了主导,然而我们不一定了解自己的数据,即便有了数据,有了数据商业资本,它还会让我们陷入一种寻宝的游戏。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28