京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代,即便匿名,也可能被人识别出来
大数据研究是否会侵犯个人隐私?这个问题一直饱受争议。一方面,加强个人信息安全的呼声从未减少;但另一方面,越来越多掌握海量个人数据的机构开始向公众开放数据源,以推动学术研究,提升企业的商业表现,或是为用户的日常生活提供便利。
脆弱的匿名:仅仅四个数据点便能识别个体?
为了保障个人信息不被泄露,数据提供方常使用随机ID代替个人身份信息。敏感的个人身份识别信息——如名字,住址,手机号码等——因而得以隐藏。但是,匿名ID并不是万全之策,更何况在大多数情况下,公开数据只能做到某种程度上的匿名。通过极其少量的外部确认信息,比如时空数据点,数据使用者就能够反向识别某个具体的个人。
在最近发表的一项研究中,MIT的Yves-Alexandre de Montjoye等学者分析了100多万用户在3个月内的信用卡消费数据。他们发现,仅仅需要4个外部确认信息,数据使用者就能以超过90%的几率识别特定用户。所谓外部确认信息,也就是跟用户相关的时空数据点,比如带有定位信息的Twitter,在Google上对某地的评价,Netfliex上的电影评分等等。
反向识别的大致流程是这样的:比如说,数据使用者想找到用户S的消费记录。他们由外部确认信息得知,S曾经在9月23号在某甜品店消费,并于9月24号在某餐馆就餐。经过在信用卡数据集中的筛选,只有一位ID为“7abc1a23”的用户完全符合上述条件。于是,只通过两条外部确认信息,研究者们就在海量的信用卡数据中找到了S,并通过ID获取了ta的所有相关记录。
尽管上诉个例略显极端,但是也为我们敲响了警钟:大数据时代,个人的日常生活轨迹极易被各个平台记录在案,它们可以互相参照,并成为其它数据集的外部确认信息。心怀不轨的攻击者,可以轻易地使用不同数据集进行比对,并定位目标个体。
数据和隐私:从历史到今天
在不同类型的数据中,个体被识别的可能性差别很大。相对而言,财经类数据,比如研究者们所使用的信用卡消费信息,能更准确地对个体进行反向识别。这些数据不仅仅包含了时间,地点,还额外加上了一重识别信息:消费金额。除此之外,手机移动数据信息、网络浏览信息、交通通勤信息等等,也都属于风险较大的类别。对于生活在网络时代的我们来说,只要曾在生活中留下过电子痕迹,个体隐私便难免遭受侵犯,甚至连匿名都无法提供足够的保护。
事实上,关于身份信息的记录早已有之,包括人口普查、选民登记、医疗信息等等。而这些数据常常在经过简单匿名处理之后,就直接向公众开放。1997年,MIT的学者Latanya Sweeney就曾质疑马萨诸塞州保险委员会公布的匿名医疗记录无法保护个人隐私。她借助该州的选民信息,成功反向识别了病患身份,并将研究结果发给州长加以警示。所以,匿名个体遭到定位的风险倒并非今天所独有。
然而,计算机技术的成熟以及大数据时代的到来,让情况变得更加糟糕。许多提供匿名用户数据的公司,都在隐私保护方面栽过跟头。2006年,美国在线(AOL)公布了65万用户在三个月内的匿名搜索数据。纽约时报依据外部信息进行对比,成功识别了部分用户的身份。在随后的法律诉讼中,AOL被迫付出了500万美元的赔偿金。
Netflix在2008年也曾陷入类似的争议。Netflix在2006年举办了著名的算法竞赛,奖励能预测用户观影偏好的最佳算法。大量的匿名用户评分数据因而被公布,并由参赛者任意使用。来自德克萨斯州大学奥斯汀分校的Arvind Narayanan 和 Vitaly Shmatikov两位学者,将Netflix的数据和IMBD的数据进行匹配,并由此识别了一些用户的身份,以及包括政治偏好在内的敏感信息。一年后,四位用户以侵犯隐私权为由将Netflix告上了法庭。
见招拆招:更复杂的匿名技术还是更完备的法律?
意识到匿名ID的脆弱和不可靠,学界和业界也在不断发明新的方法,以提升个人身份被识别的难度。Yves-Alexandre de Montjoye等研究者提供的一种解决方案是降低数据精度,比如将特定咖啡馆转换为某一区域内的餐馆,将具体时间转换为某个时间范围。但是他们承认,如果有足够多的外部确认信息,即便数据精度较低,某些个体仍旧很容易被辨识。
上文提到的Latanya Sweeney教授,则早在2002年就提出了k-匿名(k-anonymity)隐私保护模型。其它的方法还包括 l-多样化(l-diversity)、t-closeness、 差分隐私(differential privacy)、同态加密(homomorphic encryption)、零知识证明(zero-knowledge proof)等等。但是这些匿名方法都不可避免地存在局限性,无法完全阻止反向识别的实施。
比如说,所谓差分隐私,就是向原始数据中加入噪声,在增加识别难度的同时,保持数据的原有属性。一个例子是,Chrome 浏览器会首先对用户上传的数据进行随机化修改(randomized response),通过使用布隆过滤器加入噪声,再上传给服务器。苹果在2016年的世界开发者大会(WWDC)上也宣布使用类似的差分隐私方法。不过,差分隐私还是无法避免多个相关数据上报而导致的隐私泄露。更何况,道高一尺魔高一丈,匿名方法推陈出新的同时,攻击者们也会采用更为强力的识别工具。
唯一可以让我们稍许感到宽慰的是,学者们的不断努力提醒了政府,并推动了相关领域的立法行动——Latanya Sweeney就医疗隐私做出的警告,使得美国政府在2003年更新了健康保险便利和责任法案(HIPAA),进一步限制了医疗数据的披露。
现有体系的缺陷:隐私保护向何处去?
但即使在美国,立法方面的进展仍旧远远落于实践之后。美国现有法律强调,只要数据被提前模糊化,个人的身份信息得以隐藏,便可以被视为“安全”的匿名数据集,从而数据拥有者可以开放其使用权限。
至于数据被公开之后的使用限制,在现有法律框架中基本无迹可寻。更令人担忧的是,并不是所有数据公司都有保护隐私的良知,或者掌握了完备的匿名处理方法。很多时候,匿名数据被公开之后,公司就无法再通过后续手段加强其安全性。相比之下,攻击者能够不断升级技术手段,并收集其他数据来进行对比。
随着技术的普及和大数据的发展,使用者从公开资料中挖掘出个人敏感信息的难度不断降低。2014年,一名在Neustar实习的数据科学家在获取了纽约出租车轿车协会提供的出租车行车记录后,结合八卦信息网上找到的名人出行街拍图,成功识别了多位名人的上下车地点、车费、行车路径,以及其他一些出行记录,一时引发了舆论的关切。
越来越多的事例及研究表明,匿名能给个人隐私提供的保护十分脆弱,反向识别正变得愈发普遍。但是在当前的司法体系下,数据提供者依旧没有义务上报可能遭受了反向识别的数据集。攻击者们也甚少被追究责任。于是,公众很难得知,某个公开数据的匿名性是否已被攻破。无论是技术层面还是法律层面,大数据时代的隐私保护都还任重道远。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10