
大数据时代 你还有隐私吗_数据分析师考试
“我点击了自己的名字,页面上出现了一张熟悉的照片――是我穿着一件蓝色衬衫的照片,旁边配有我的基本履历资料……我点开了一个最近更新的链接,地点是波士顿的马萨诸塞大街……两秒钟后,我在视频中看到了自己推开了地铁站那厚重的大门……每次看到自己出现在视频中,我都会浑身不自在。但现在可好,我的一举一动已经被LifeLinear网的系统给记录了下来……”
以上是出自美国作家艾伯特-拉斯洛・巴拉巴西今年的新书《爆发》中的片段,其中出现的能够每时每刻记录人们行踪的“LifeLinear系统”只是作者杜撰出来,并非真实存在。但是作者同时认为,在科技发达的今天,借助大数据的平台,“LifeLinear系统”并非不能实现。这样的场景又让人毛骨悚然:如果真有这样一套系统面世,我们的隐私岂不是要暴露在光天化日之下?大数据堪称一把双刃剑。不论是企业还是个人,都会因大数据的爆发获益匪浅,但同时个人隐私也无处遁形。随之而来的问题是:这些数据应当属于谁?谁有权利利用这些数据进行分析?这种利用能否有个限度?
大数据改变世界
大数据概念相对“年轻”,但是对于很多人并不陌生。数据的爆发归功于社交网络、电子商务和物联网的快速发展。
以前,人们只是将上网当做娱乐方式之一,现在,人们更多的是生活在网络平台上。这使得每18个月,数据量就会翻一番。海量数据的影响力是不可小觑的。麻省理工学院斯隆管理学院的经济学教授埃里克・布吕诺尔夫松(Erik Brynjolfsson)曾经指出,在商业、经济及其他领域中,决策行为将日益基于数据和分析而作出,而并非基于经验和直觉。“我们的决策能够开始变得更加科学化。”他这样说。 越来越多的企业希望借助数据存储、数据分析等为自身带来更多利益。最典型的一个案例就是,华尔街有炒家利用电脑程序分析当时全球3.4亿微博账户的留言来判断民众情绪,再以1到50为其打分,根据分数高低处理手中的股票。判断原则很简单:如果多数人表现兴奋,那就买入;如果大家的焦虑情绪上升,那就抛售。这一数据分析软件帮助该炒家在今年第一季度获得了7%的收益率。
当然,消费者也会享受到更方便和更具个性化的服务。网购狂人李雪(化名)每天早上打开邮件,首先映入眼帘的就是各大电子商务网站发出的订阅邮件和个性化推荐的邮件,着实方便了她在网上进行目标性极强的有选择的“扫荡式”购物。这是商家根据对用户的页面停留时间、浏览与购买商品的分类等数据的分析作出的推荐。 另外,还可以通过数据分析来为人们的提供健康保障。总部位于美国加州的医疗管理财团Kaiser Permanente,收集并分析所有的临床分析和成本数据,发现了美国默沙东公司的神经和肌肉、骨骼系统药“万络”能够引发心脏病的副作用,最终成功使其退出市场。《爆发》一书中提出,如果大数据被充分利用,在流行病的控制等方面也会发挥奇效。
谁来掌控属于你的大数据
每个人都期待获得个性化服务。但是,在大数据时代,想要获得个性化服务,就一定会在某种程度上牺牲自己的隐私。 当你在使用电子邮件、社交网络的时候,你大概也会知道你的信息正在被记录下来,你发表的言论或者分享的照片、视频等都决定着互联网运营商即将向你推荐什么样的资源和广告;当你拿着iPhone满世界跑的时候,苹果早已通过定位系统把你的全部信息收罗在自己的数据库里,利用这些信息来构建地图和交通信息等;当你在享受着视频监控带来的安全感的同时,别忘了你也是被监控的一分子,你的一举一动都会暴露在镜头下面;你用手机通话时,运营商不仅知道你打给谁,打了多久,还知道你是在哪里进行的通话。 以前,这些记录几乎不会对普通人造成影响,因为它的数量如此巨大,除非刻意寻找,人们不会注意其中的某些信息。
但是,随着大数据技术的不断进步,这一状况正在发生改变。本文之前提到的悬而未决的问题随之而来,造成了很多尴尬的局面。例如,Facebook公司内部的科学家已经利用这些数据进行了大量研究并发表了超过30篇论文,但Facebook顾虑到隐私问题,并未公布原始数据,使得这些论文无法被业界承认并应用在广泛的社会学和心理学领域。同时,外界的研究者苦于没有数据,进行相关研究时远远没有Facebook得心应手。今年8月,Facebook公司表示正计划向社会学家开放有限的数据访问权限,这又会带来更多争议。此外,谷歌也和美国政府就数据利用问题产生了多次冲突。美国政府以各种理由不断要求谷歌提供用户数据并时常遭到谷歌拒绝。
同时,美国政府也对街景等应用进行调查,限制谷歌收集更多数据以制衡谷歌。 微软研究院的高级研究员博伊德(Danah Boyd)曾经表示:“如今,我们社交网络化的社会绝对有制造恐慌的天分。在大数据时代,对隐私泄露的担忧就是强大的紧张和焦虑的源泉。人们普遍认为,最令人焦虑的在于你根本不知道什么时候自己的隐私就无意中被泄露出去。”她认为,这并不是我们希望建立的社会。 人们最担心的,是对这种数据的无限制利用。《爆发》一书中更指出,人的行为看似随机无序,但实际上是存在某种规律的。社交网络如此发达的今天,大数据把人的行为进行放大分析,从而能够相对准确地预测人的性格和行程。
所以,不排除有这样一种可能:在忙完了一天的工作之后,你还没有决定要去哪儿,数据中心却早就先于你准确预测了接下来的目的地。 人们是否存在真正的隐私 当前,数据的数量时刻都在飞速增长。信息分享在全世界范围内越广泛,确保数据安全和保护人们隐私的任务就越难完成。现如今,人与人之间交流产生的流量远远大于文件传输产生的流量,但是,人与人之间的交流可以界定为隐私,属于比较敏感的范畴。
由此看来,整个互联网都是隐私的,是不可公开的。但是,现有的互联网结构下,你的所有应用对于服务提供商,其实都是透明的。那么,人们既想要借助互联网的平台与别人交流,又想要自己的空间不被窥探,这是完全不可能的。 《爆发》一书中指出,为获得便利,人们未来会接受匿名的隐私泄露。
但是,在过去的几年中,计算机专家一再表示,即使是匿名的数据也可以被重新确定,并且归属到具体的个人。例如,如果一笔超市购物记录中的零食全都和你的爱好相符、提供记录的超市正好位于你公司到家里的路上、购物时间刚好是你下班和到家之间的时间,这笔购物就很有可能与你相关,如果单子里刚好有你之前微博上表示感兴趣的商品,那就更有可能了。曾经,谷歌的一位工程师在解释“为什么不收集与人的名字相关的信息”的时候说道:“我们根本就不需要名字,名字对我们来说完全多余。谷歌记录网民搜索查询、位置和网上行为的大型数据库中就有大量信息,这足以让谷歌间接地了解一个人。”
这意味着人们隐私权的最后一道防线同样脆弱得不堪一击。 人们只能寄希望于在政府加大立法制度的同时,企业自身也设定相关规则实现自我管控。在美国北卡罗来纳州,曾经有人因为雇主看了他在Facebook上的信息而求职失败,求职者对雇主起诉并打赢官司。
为此,北卡罗来纳州专门立法规定雇主不得对雇员进行网上监控。Facebook也专门设立了首席隐私官。不过,政府和企业本身就拥有最多的数据,它们会真正限制自己对数据的应用吗?这将是未来大数据时代头上的一把达摩克利斯之剑。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28在 CDA(Certified Data Analyst)数据分析师的技能工具箱中,数据查询语言(尤其是 SQL)是最基础、也最核心的 “武器”。无论 ...
2025-09-28Cox 模型时间依赖性检验:原理、方法与实战应用 在生存分析领域,Cox 比例风险模型(Cox Proportional Hazards Model)是分析 “ ...
2025-09-26检测因子类型的影响程度大小:评估标准、实战案例与管控策略 在检测分析领域(如环境监测、食品质量检测、工业产品合规性测试) ...
2025-09-26CDA 数据分析师:以数据库为基石,筑牢数据驱动的 “源头防线” 在数据驱动业务的链条中,“数据从哪里来” 是 CDA(Certified D ...
2025-09-26线性相关点分布的四种基本类型:特征、识别与实战应用 在数据分析与统计学中,“线性相关” 是描述两个数值变量间关联趋势的核心 ...
2025-09-25深度神经网络神经元个数确定指南:从原理到实战的科学路径 在深度神经网络(DNN)的设计中,“神经元个数” 是决定模型性能的关 ...
2025-09-25在企业数字化进程中,不少团队陷入 “指标困境”:仪表盘上堆砌着上百个指标,DAU、转化率、营收等数据实时跳动,却无法回答 “ ...
2025-09-25MySQL 服务器内存碎片:成因、检测与内存持续增长的解决策略 在 MySQL 运维中,“内存持续增长” 是常见且隐蔽的性能隐患 —— ...
2025-09-24人工智能重塑工程质量检测:核心应用、技术路径与实践案例 工程质量检测是保障建筑、市政、交通、水利等基础设施安全的 “最后一 ...
2025-09-24CDA 数据分析师:驾驭通用与场景指标,解锁数据驱动的精准路径 在数据驱动业务的实践中,指标是连接数据与决策的核心载体。但并 ...
2025-09-24在数据驱动的业务迭代中,AB 实验系统(负责验证业务优化效果)与业务系统(负责承载用户交互与核心流程)并非独立存在 —— 前 ...
2025-09-23CDA 业务数据分析:6 步闭环,让数据驱动业务落地 在企业数字化转型中,CDA(Certified Data Analyst)数据分析师的核心价值,并 ...
2025-09-23CDA 数据分析师:以指标为钥,解锁数据驱动价值 在数字化转型的浪潮中,“用数据说话” 已成为企业决策的共识。但数据本身是零散 ...
2025-09-23当 “算法” 成为数据科学、人工智能、业务决策领域的高频词时,一种隐形的认知误区正悄然蔓延 —— 有人将分析结果不佳归咎于 ...
2025-09-22在数据分析、金融计算、工程评估等领域,“平均数” 是描述数据集中趋势最常用的工具之一。但多数人提及 “平均数” 时,默认指 ...
2025-09-22CDA 数据分析师:参数估计助力数据决策的核心力量 在数字化浪潮席卷各行各业的当下,数据已成为驱动业务增长、优化运营效率的核 ...
2025-09-22训练与验证损失骤升:机器学习训练中的异常诊断与解决方案 在机器学习模型训练过程中,“损失曲线” 是反映模型学习状态的核心指 ...
2025-09-19解析 DataHub 与 Kafka:数据生态中两类核心工具的差异与协同 在数字化转型加速的今天,企业对数据的需求已从 “存储” 转向 “ ...
2025-09-19