京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据的边界和大数据生存法则
“大数据”的汹涌澎湃,让人们逐渐意识到,由此带来的,极有可能是一场发生在几乎所有领域的颠覆性革命。只是,虽然坊间有关大数据的论著很多,但敢于将这种趋势上升到“主义”高度的,恐怕非史蒂夫·洛尔莫属。身为在《纽约时报》撰稿长达二十余年的非虚构写作者和资深记者、编辑,因为长期从事数据科学报道,洛尔早在十多年前就敏锐地感受到“大数据”即将给人类带来的变化。而眼前的这本《大数据主义》,不同于此前的大多数同类论著的动人之处在于,它以一个在数据分析行业找到人生价值的年轻人、曾为脸谱网建立了最初的数据科学家团队的哈佛毕业生杰夫·哈梅巴赫的经历,以及人类数据时代的标杆——IBM公司的大数据生存法则为主线,在叙事中又穿插了大量相关人物的故事和观点,勾勒出了近几年大数据浪潮对人类生活诸多方面的深刻影响。
早在2012年初,史蒂夫·洛尔便先知先觉地以“大数据主义”为题,在《纽约时报》“周日评论”板块发表了一篇社论,网站点击量激增,很多读者还写了关于这篇文章的评论。《大数据主义》便是对上述主题进一步挖掘的成果。
杰夫·哈梅巴赫,这位曾在华尔街这个聪明人汇集的行业做金融数据分析,之后又加盟脸谱网,在从事数据科学研究的同时也为自己的人生赢得了财务自由。离开脸谱网后,他自己创办了一家名为Cloudera的公司,自任首席科学家,编写用于数据科学研究的软件。2012年夏天,年仅28岁的哈梅巴赫又转战医疗业,加入纽约西奈山伊坎医学院,领导一个数据小组,从事遗传信息的研究,为探索疾病模型的建立方法和治疗手段寻找突破口,这是他认为的目前能将数据科学研究投入应用的最佳途径。而作为一家有着上百年历史的科技巨头,IBM对数据技术的进展同样甚为关注,他们在较早时候就组建了研究团队,制定了战略方针,投入了大量资金,招募大批该领域的专家,团队人数至今已达2000人。其首席执行官甚至告诉洛尔:“我们把整个公司的前途都押在了大数据技术的应用上。”
大数据生存法则
自1946年计算机问世以来,便不可逆转地加速改变着人类的生活方式和进程。时至今日,海量存在于互联网及其他各处、能被人们获取的信息,早已由千字节(KB)、兆(MB)、千兆(GB)、太字节(TB),跃升为拍字节(PB)、艾字节(EB)、泽字节(ZB),乃至尧字节(YB)。据测算,如果将人类现存的信息全部汇集并存贮起来,需要用到的ipad,叠加起来的厚度可绕地球三分之二圈。正是这惊人的数据总量,使人类在处理信息时能经历从量变到质变的过程,就如同物质到了纳米级别,各种原有的特性都会发生惊人的突变,“大数据”概念的诞生,正是数据存量不断累积的必然结果。
面对不断生成的各种数据,尤其同一个系统或平台上生成的数据,尽管以人类的大脑很难理清它们相互之间的关系,对这些数据得以如此产生的前因后果更无法给出合乎逻辑的解释,但它们之间确实存在着一定的相关性。尽管以人类现有的理解能力看来,这种相关性并不十分清晰,甚至有几分神秘,但通过总结这一系列数据之间的生成规律,人们仍然可以比过去更为有效地决策,而不是像过去通常所做的那样,依靠个人直觉或是一些只可意会不可言传的经验来做出某个重要决定。因此,许多在过去看来无用的数据,今日都“变废为宝”了。举例来说,世界最大零售商沃尔玛通过对大数据统计和研究发现,男性顾客在购买婴儿尿片时,通常会顺便买上几瓶啤酒。尽管商家不知其中缘由,但还是果断推出了啤酒与尿布捆绑销售的促销方式,提升了啤酒销量。由此看来,正是大数据带来的定量分析方法,为人们的决策带来了新的参考依据。作为一种创新工具,它还催生了大量相关技术,如社交媒体、传感器信号、基因组信息等,不仅有利于经济增长,还可以帮助我们重塑构建世界的方式,甚至在一定程度上改变我们世界观。
尽管大数据技术刚刚起步,但如今可涵盖的应用领域已十分广泛:从挖掘数据帮助企业经营决策,到对社交媒体用户展开细致入微的数据分析,提高网站的广告点击率;从利用大数据培育性能前所未有的智能机器人,到推动一些传统产业的升级换代。此外,还有更为性命攸关的医疗行业的“大数据革命”。例如有人提出,许多慢性疾病并非个体基因引起,而是一种复杂的网络性紊乱,涉及从分子、细胞、组织、器官到人类社群的各个环节。因此他们将一组涉及年龄、病史、生活方式和环境等可能影响疾病的发生发展因素,通过复杂的数学模型,全部转化为数字,以便试验性地检测一个人三年内患上某种疾病的可能性。尽管从定量分析角度看,精密科学,如物理学、化学等学科更为成熟,预测结果也更准确,但人们仍在努力引导医疗行业向定量分析的方向发展,而非仅仅依靠经验对人的健康状况定性。
在美国某些研究机构中,大数据应用几乎可协助建立人类行为模型,帮助人们了解自身各种行为之间的关联关系,那些不曾为人所知的人类行为的奥秘也将慢慢得到破解。
另一个很有意思的例子,发生在IBM公司研制的智能机器人沃森身上。这个“人”在《危险边缘》节目中高超的信息处理速度,战胜了面对人类对手战无不胜的超级挑战者,令人想起当年深蓝战胜棋王卡斯帕罗夫的故事。似乎显得巧合的是,深蓝的发明者,同样是IBM公司,如今它又一次以辉煌战绩证明了在人工智能领域的领先地位,所不同的是,这次的胜利,离不开大数据技术的鼎力相助。
在IBM沃森实验室召开的一次学术会议上,人工智能专家希利斯更提出了一个极具前瞻性的观点:“机器人必须学会讲故事。”在希利斯看来,如果一个计算机系统只会提供答案,而不会“思考”和“解释”问题,那么无论运算速度多快,都不会有突破性的前景。这里所说的“讲故事”,其实就是在软件糅合数据、想法、推断,并形成决策时,对整个过程实施跟踪,让人们在使用过程中和过后都能知道计算机是如何一步一步完成其工作的。给出这样的解释,就能让人们知道机器人与我们之间的关系,也就是弄清楚,在整个决策过程中,有哪些部分工作是机器人完成的,有哪些是由人类所做的。
大数据真果真无懈可击?
既然如此神奇,大数据技术及其应用岂不是理应被当代渴望进步、增长的人们顶礼膜拜·史蒂夫·洛尔并不这样认为。大数据技术的应用,仅从其可靠性而言,就亟待改进。在近年来一些大公司的错误经营行为中,常常可找到大数据应用的影子。此外,伴随大数据技术渗透进人们生活的,还有个人隐私被泄露的风险。无论社交网络的使用,还是各种随身软件中内置的定位装置,甚至连个人的基因信息,都会在人们并不知情的情况下,被大数据拥有者有意或无意地获取,从而令个人信息的保护程序受到严重威胁。
这方面最典型的例子还要数安客诚公司。这家全美最大的数据代理商,在全球范围内收集了数亿名消费者的相关数据。这些公开或推断所得的信息包括年龄、种族、性别,党派,以及诸如对度假的期待、对健康的关注程度等非客观信息。在将这些数据归纳之后,这家网站就可轻易推断出大多数美国成年人在这些项目上的相关数据,其深入细致的程度无人可及。《纽约时报》的一位评论员甚至写道:“访问者登录之后就会发现,该网站不仅有大量与自己有关的信息,甚至还有描述详细的私生活,面对这种情况,他们可能会大吃一惊。”面对这种对个人隐私的严重侵犯,除了少数民间的隐私权倡导者提出抗议之外,无论从法律或技术层面,至今仍没能设计出有效的预防措施加以制止。
更为本质的问题还在于:尽管很多大型现代企业早已进入了“无法计量就无法管理”的时代,但在人类生活的其他方面,仍有许许多多重要的东西无法只用数据就可以说明或解决的。事实上,至少迄今为止,几乎所有能赋予我们的生活以终极意义的东西,如情感、信仰、人与人之间的爱,还有个体自身庄严阔大的精神世界,都绝不可能以数据来涵盖或表达。因此单纯的数据崇拜并非福音,面对人类生活的无数复杂微妙之处,任何形式的“大数据决策”,都有必要用谦卑来调和,以免误入歧途。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】大数据、零售商、消费者、供应链、运营、企业、产品、客户、数据模型、大数据平台、数据开发、系统运维、业务逻 ...
2026-06-26在物流配送、供应链履约、终端供货等业务场景中,送货率是衡量企业履约能力、服务质量、供应链稳定性的核心业务指标,直接关联客 ...
2026-06-26 很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度” ...
2026-06-26在数字化管理与数据化运营体系中,指标是连接原始数据与业务决策的核心载体。零散的原始数据只是无意义的数值堆砌,无法直接反映 ...
2026-06-25在Excel数据汇总、财务统计、业务复盘等日常办公场景中,经常需要完成逐行相乘、整体汇总求和的计算需求,最典型的场景就是:单 ...
2026-06-25 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-06-25【核心关键词】主数据、资产、供应商、现金流、企业、精细化、集团、数字化、中国、数据质量、数据管理、经营管理、地产行业、 ...
2026-06-24在数据分析、假设检验、AB测试、学术研究等统计场景中,显著水平(α)与P值(P-value)是判断统计结果是否具有统计学意义的两个 ...
2026-06-24小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5 ...
2026-06-24在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-06-22【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17