
从大概率看,你的隐私数据是时代进步的牺牲品
如何更好地保护个人隐私,是网民十分关心的问题。在大数据时代,人们在网上的一切行动,都在向计算机暗示着他是谁、为他们完善着用户画像,网上随便购物就很容易暴露自己的收入以及家庭状况,广告营销的精准投放成了一门大生意。
这不仅让“什么是隐私”这个问题变得无法界定,更让用户时刻处于隐私泄露的忧虑之中。
事实上,隐私问题被媒体置于公众舆论层面上讨论已经是个月经帖,今日头条、支付宝、百度等大公司都曾被公众舆论轮流关照,前两周的百度“黄金眼”事件就是一个例子。
老生常谈的问题,换个视角或许能有一点启发。
大数据革命的“洛克纳时代”
在美国宪法发展历史上,学界对洛克纳时代(1897-1937年)的反思了持续几十年。这个期间,美国最高法奉行自由主义思想和最小政府理念,进行了严格的宪法审查,自1897年联邦最高法院限制政府滥用“谢尔曼法”来抑制垄断企业起,否决了多项州与联邦干涉企业经营的立法相关法律。
1905年,美国最高法院对Lochner v. New York的一纸宣判认定保护工人权益的十小时工作上限法违宪;
1908年,Adair v.United States判决“强制工人加入工会违宪”从而削弱铁路行业工会的力量;
1918年,Hammer v. Dagenhart一案宣判限制童工商品流通的国会立法违宪;
1921年,Duplex Printing Press Co. v. Deering主张工会也应当受反托拉斯法管辖进而再次限制工会,
1923年,Adkins v. Children’s Hospital宣告妇女、儿童最低工资法案违宪;
限制工会力量、取消最低工资保障、取消对童工的限制使用,这一切与今日的语境显得格格不入。
但如果站在历史的角度复盘那个时代,“洛克纳时代”与第二次工业革命密切联系。在那次科技革命中,电力、内燃机、石油、钢铁行业代表着最先进的生产力。虽然机器代替了部分劳动力,但资本的原始积累依旧离不开廉价的劳动力。
工会制度、退休金制度、最低工时制度、最低工资制度都会增加劳动力成本,而童工、女工则增加了劳动力市场的供给,进一步拉低了用工成本。洛克纳时代的一系列判决为劳动力成本降低了门槛,为美国在二次工业革命中一举超过英国,成为世界经济霸主扫清了司法障碍。
套用最近热门电影《银翼杀手2049》华莱士的一句话:Every leap of civilization was built on the back of a disposable workforce(每一次文明的跃进都是建立在用完可弃的劳动力的基石之上)。
在今日的大数据时代,人工智能、大数据成为新的技术驱动力,决定公司数据能力最核心的资源不在于算法的先进程度,而在于能掌握的数据规模。
《经济学人》高呼:数据将成为新的石油。现如今,如何低成本获取个人数据的重要性就如同当年低成本获取劳动力一样,可以为互联网公司带来市场竞争的相对优势。
可以看出,如何权衡隐私保护和促进企业国际竞争力的平衡,成为每个政府都需要面对的两难局面。事实上,目前美国对于互联网公司收集人隐私的态度比较宽容,今天的法官并没有忘记他们前辈那套关于“合同自由高于个人权益”的说辞:“你怎么出卖你的个人信息给互联网公司,是你的自由。”
对待数据流通的态度,美欧截然不同
在美国,如果用户感觉隐私被侵犯,那么有两条路寻求帮助——司法手段与行政手段。
先看司法手段,个人能通过违约责任或者侵权责任向法院提起诉讼。如果是违约责任,那么要追究互联网公司违约而导致隐私侵犯的前提是违反合同,而互联网公司的隐私条款(Privacy Policy)算不算合同?这在美国的法院判决中存在争议,可惜根据2004年Dyer v. Northwest Airlines Corporations一案,法院认为公司声明不能算作单方合同。
这种判断我们认为也是合理的,因为如果互联网公司的隐私声明被认定成为了合同,那么意味着互联网公司稍有违约,那么所有用户都可以主张责任,导致互联网公司的违法成本剧增。而被束缚手脚也倒是其次,现有美国的司法程序对于动辄几千万人的原告几乎束手无策。
如果用户主张侵权责任,隐私的泄露很难被主张实质性侵害(substantial harms),例如根据用户喜欢百事还是可口进行精准营销在法律上几乎不可能被界定为实质性损害,加上举证义务的成本,除非是出现了严重的数据泄漏,个人对互联网公司主张侵权赔偿极为困难。
个人用户通过法律寻求隐私权救济的路,基本上可以说是成本高到难以承受了。
那么行政手段呢?在美国此类事件的主管部门是FTC(联邦贸易委员会),其主要职责是保护消费者免于因市场反竞争、欺诈和不公平的侵害,只有当企业实施了上述行为使得用户隐私受到侵害,才能予以干预。
具体到隐私侵权方向,FTC只能审查互联网公司的隐私条款有没有存在欺诈许诺。在Snapchat一案中,Snapchat许诺用户上传内容后可以“阅后即焚”,但是技术上却做不到不被下载和截屏,这就构成了欺诈许诺,被FTC开了一刀。
更为重要的是,美国FTC不受理个人诉求,个人只可以检举。至于是否处理,FTC具有高度的自主选择权。事实上,FTC每年会接到5万个举报,但是整个2016年只结了11案件。据曾在FTC任职的朋友介绍,因为人手和经费不足,对这些公司开出罚单必然意味着行政诉讼,那么作为政府机构的FTC它需要顾及自身信誉,只会挑胜诉率极高的案子来“选择性”执法。
所以,个人隐私侵权事件,在美国可以基本上可以描述称为“投诉无门”。这也就在某种程度上降低了美国数据流通的成本。而地球另一端的欧洲则在拼命提高数据流通的成本。
2016年,欧洲议会通过了《一般数据保护条例》(GDPR),并且会在2018年5月上线(如果的话)。这个条例规定,非欧盟成员国的公司,只要满足下列两个条件之一,该公司就受到GDPR的管辖:
今年7月份英国最高隐私保护监管部门裁定,Alphabet旗下的DeepMind,有一项重要的医学实验违反了英国的数据保护法,因为它们不恰当地采集了160万份患者医疗记录,他们的数据被用于测试一款新的移动应用。
同为医疗数据,美国通过IMS health co. v. Sorrell一案判决禁止出售患者处方数据的法案违宪,保护医疗数据公司获取数据做营销的权利。
大家感受一下欧洲与美国截然不同的态度。
但有趣的是,尽管欧盟在全力推广自己的GDPR标准,可惜截至目前,数据流动的中心并不在欧洲,世界上市值最高的20家互联网公司中也没有一家欧洲企业。
所以近期来看,这个标准有可能会被当作贸易保护壁垒来选择性使用,而保护隐私只是它背后诸多政治目的中的一种,而且使用时需要通盘考虑。不过这种抬高数据流通成本的行为,也必将影响欧洲地区的互联网发展。
数据革命的“西进运动”
广袤的处女地、丰富的资源、自由的天地、跑马圈地加上法律的缺位、强者生存的第一哲学,这就是西部。
美国历史学家弗雷德里克·特纳所言,西进运动塑造了美国历史。边疆学派从此也给了美国人身份认同的自信,并深扎根于美国人的文化基因中,最后这些文化遗产又化作为进取的企业家精神留在了西部,成为了继续耕耘加州的那些“新牛仔”们——硅谷英豪的精神动力。
互联网巨头现在只剩下中美两个玩家,中国已经清晰地感受到了下一次技术革命的召唤,坐拥世界最大的网民也意味着即将拥有最大的数据富矿。加上中国社会的急速发展,致使国人行为模式样本的多样化和快速演变,这都是人工智能、机器学习和大数据的天然良品。
数据作为重要的战略资源,则成为关乎这个国家发展命运的重要一环。互联网巨头现在只剩下中美两个玩家,在这个语境下,美国监管部门有可能会继续维持较低数据流通成本的监管方式。而欧盟、中国都会受美国政策是否收紧的影响来制定本地策略。
事实上我国的互联网巨头对数据流通的成本极为重视,许多大型公司已经将服务器设在东南亚各国。那些国家市场规模小,也没有本土互联网企业需要保护,更没有数据中心以及具备制定国际规则的能力,政府也乐意通过宽松的监管政策减少跨国企业的合规成本。
去寻找另外一个没有政府监管,且尚不成熟的自由之地,这种嬉皮士文化从一开始就被互联网的创造者写入了其基因中,而现在依旧在影响着互联网。
出于对互联网企业的国际竞争力的保护,监管层可能不会推出提高数据流通成本的措施。回顾洛克纳时代的终结,需要全国范围改革的凝聚力、强有力的执行——罗斯福新政开始大范围干预国家经济,迫使天性保守的司法重新审视过去的判决。
隐私问题终究会获得更多的关注,但那一天应该还远没有到来。在此之前,你我的隐私只是“新牛仔”眼中的羊群。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09