京公网安备 11010802034615号
经营许可证编号:京B2-20210330
“数据引导你的行为”:大数据背后的权力与不公
国内有网友发现,同样的商品或服务,老客户看到的价格反而比新客户要贵出许多,在机票、酒店、电影、电商、出行等多个价格有波动的平台都存在类似情况。这在互联网行业被称作“大数据杀熟”。另外,李彦宏在中国高层发展论坛上就个人信息利用问题发表的观点——“我想中国人可以更加开放,对隐私问题没有那么敏感。如果他们愿意用隐私交换便捷性,很多情况下他们是愿意的,那我们就可以用数据做一些事情。”此言一出,李彦宏成为众矢之的。
国外,Facebook也遭遇了数据泄露丑闻。根据一名剑桥分析公司员工的爆料,该公司在用户不知情的情况下,秘密分析了大约5000万脸书用户的个人资料,以此制定个人化的政治宣传,预测并影响选民投票,帮助美国总统特朗普赢得2016年的大选。
Facebook很快遭到了市场的惩罚,股价蹭蹭往下掉,市值蒸发500多亿美元。这一丑闻愈演愈烈,国外发起了#delete Facebook(删除Facebook)运动,埃隆·马斯克站出来当起了表率,注销了自己两家公司SpaceX和Tesla在Facebook的官方主页,越来越多的网友参与其中。并且,因为影响选举,数据泄露还上升为政治事件,引起了英美等国政要的“强烈不安”。
很长一段时间以来,我们享受到了大数据时代带来的种种便利,而忽视个人信息被攫取和利用的巨大风险。我们本以为逃匿在网络空间是为了“隐身”,可在互联网企业眼里,我们其实是在“裸奔”。人们关于个人信息安全的保护意识,开始苏醒。
数据引导你的作为
此次涉及非法收集用户信息的数据公司“剑桥分析”由共和党大金主、对冲基金亿万富豪罗伯特·默瑟投资,美国总统特朗普前首席战略顾问班农担任董事,与特朗普有着千丝万缕关系。
在纽约的一次公开演讲中,剑桥分析的CEO 亚历山大·尼克斯曾分享过这个公司的运作“秘密”:他们会对成千上万名调查者进行心理分析,并将他们分为32种不同的人格,然后融入选民的Facebook足迹、消费足迹和投票记录等,最终分析并影响他们的投票行为。也就是说,根据数据对每一个用户画像的捕捉,它就可以比用户的朋友更了解他。
在剑桥分析网站的首页,一行大字醒目而跳脱,Data drives all that we do(数据引导你的作为);而剑桥分析政治服务部门的广告语是:“我们定位你的选民,打动他们让他们采取行动。”在官网上,剑桥分析列出了自己的光荣业绩:“为五大洲超过100场竞选提供支持;仅在美国,我们就为赢得总统选举、国会选举和各州选举发挥了关键作用。”
数据在引导你的作为——表面上看这有些危言耸听,但当你足够多的数据被收集合并归纳之后,数据的确可以做到。
数据是社交媒体的生命线。为了提供准确的定制化、个人化信息服务,让资讯的推送与用户的偏好吻合,都需要对用户进行画像。而画像的基础数据,就是个人的身份信息、浏览习惯等。一旦你在互联网上有任何行为,比如进入某个APP,购买某样东西,阅读某篇文章,其实都在被记录、被分析。你的一切信息都会成为别人的数据库,被用来给你画像。
过去,这一切被统称为大数据,一直以来,舆论对大数据时代多持一种乐观态度。的确,数据潜藏着丰富的价值,比如大数据分析是更好的决策工具,很大程度便利了我们的生活……但对于数据对个体行为的引导,则缺乏足够的重视和警觉。
国际网络安全专家施奈尔(Bruce Schneier)在《隐形帝国》一书里写道:“脸书(facebook)只是根据按赞的动作,就可以推测一个人的种族、个性、性向、政治意识形态、感情状态和药物使用情形……”
谷歌公司研究员François Chollet在泄露事件后发表了一系列推文,警告说Facebook的问题不仅仅是隐私泄露或缺乏信任,而是由AI驱动的Facebook很快就会成为“极权主义的圆形监狱”。他在抨击Facebook的文章中写道:“不透明的社交媒体算法正在越来越多地决定我们阅读哪些文章,我们与谁保持联系,我们阅读谁的观点,获得谁的反馈。经过多年的训练,算法对我们所消费信息的处理使得这些系统在我们的生活中掌握了相当大的权力,决定了我们成为什么样的人。”
凯文·凯利认为,技术狂热是我们的一种自然状态,我们喜爱我们的东西,并且由它们引导。互联网公司先是大量收集你的数据,巨细无遗地捕捉、收集进云端数据库,对你进行数据画像,再根据你的画像不断向你投递个性化的信息流和广告,你习惯了这种信息接收方式,成为被种种信息喂养的你——技术瓦解了“自我的真实”。久而久之,互联网公司推送的信息就能够影响你的决策,“数据引导你的作为”成为一种现实。
无处不在的信息泄露
剑桥分析是如何攫取个人信息的?
2013年,当时在剑桥大学工作的研究者科根做了个性格测试软件,除了受访者本人之外,该应用还能收集受访者Facebook好友的数据资料。一共有约32万名美国选民参与了此次测试,但加上每人的Facebook好友,科根一共收集到了超过5000万Facebook用户的数据。后来,这些收集时号称被用作学术研究的信息,被转手给了剑桥分析。
Facebook的核心问题在于,它轻易地将用户数据分享给第三方。科根此前被允许收集Facebook用户信息,但仅限于学术目的,但它顺走了其他4000多万用户的信息,未得到用户许可,且在未经允许下将个人数据卖给另外的第三方,这才是最令人愤怒之处。
但环球同此凉热,未经允许被窃取信息并被利用的现象,在国内也非常普遍。支付宝在“年度账单”的首页让不少用户默认勾选了“我同意《芝麻服务协议》”以套取用户数据,他们的信息将“被同意”分享给第三方。腾讯方面,不少人质疑微信偷看用户聊天记录。今日头条被质疑利用手机麦克风获取用户数据隐私。“手机百度”、“百度浏览器”两款手机APP涉嫌在消费者安装前,在未告知用户、未取得用户同意的情况下,获取“监听电话、定位、读取短彩信、读取联系人、修改系统设置”等各种权限……
不少评论者建议,互联网企业应当自觉与用户建立隐私保护的契约,以文字证据提供权益保障。然而认真阅读超长的隐私政策的人寥寥可数,即便认真读了,用户也未必能发现其中暗藏的玄机;即便发现了其中的玄机,用户也没有什么说“不”的底气和权力。目前很多情况下,各种APP对个人信息的获取和使用有不对等的霸权,个人如果不通过授权,很多最重要的功能就无法使用。
就比如很多人已经习惯了使用支付宝和微信,习惯了“无现金”的生活状态;很多人也习惯了将微博和微信作为获取信息和人际交流的工具;很多人习惯了在淘宝、京东网购……但这些APP得以使用的前提,无一例外是你在注册之后必须同意它们设定的种种条款,即便这些其中有不少不平等、不合理,可能造成个人信息被泄露和滥用的条目,一旦你点击“不同意”,就意味着你无法使用这些工具。基于社交需要和生活便利需要,你很难对这些APP说“不”,不得不“让渡”出个人信息——即便你明明知道它正处在风险之中。
总之,那些让人们感到便捷舒适的服务,多半都以公众出让隐私为前提的。
避免“数据极权”
中国互联网企业的发展走在世界前列,其中一个很大的原因就是,我们对个人信息的保护持比较开放态度或者说保护力度较弱,互联网企业获取个人信息的成本很低。这可能是弯道超车必须承担的风险成本。但有风险,更凸显对风险管控的重要性,而非放任风险的存在,并最终像Facebook这样,被指“操控大众心理”,直接威胁美国的民主根基。
应该看到,数据并非是数据那么简单,数据还是一种权力。英国哲学家杰里米·边沁提出的全景监狱设想,在福柯这里衍生出了一种全新的权力运作方式。福柯曾说:“完美的规训机构应能使一切都一目了然。中心点应该既是照亮一切的光源,又是一切需要被了解的事情的汇聚点,应该是一只洞察一切的眼睛,又是一个所有的目光都转向这里的中心……这里发号施令,记录各种活动,察觉和裁决一切过错。而做到这一切仅仅需要一种精密的几何学的直接帮助。”而今,我们在网络上的行为受到了互联网公司全天候的监视,“全景敞视”成为一种现实。任何人在互联网上的踪迹和信息,都被数据公司所观看,并且这种观看无时不刻在进行。一方面你的确具备了使用互联网的权利,但另一方面你也赋予互联网公司掌控你的信息的权力,你的隐私权、自主权等轻易被剥夺。
罗素在《权力论》中指出:“我相信,机械权力必然产生一种新思想,这使得控制政府比以往任何时代都更为重要。由于技术的发展,民主或许会变得更为困难,但它也会变得更为重要。那拥有巨大的机械指挥权的人,如果得不到控制,也许会觉得自己是神——不是基督徒的爱神,而是异教的雷神会火神。”也即,数据权力不仅造成个人信息被滥用成为常态,并且,数据权力还可能变成一种“数据极权”,通过监视数据,进而监视思想、控制思想,轻而易举地“形塑人们对政治角色的体认、挑战既有的政治认同、解构大众的政治心理”。
因此,解决问题的关键在于,应该将互联网公司的数据权力关在笼子里,避免数据被滥用。一方面要打破全景敞视,赋予用户知情权。不仅应让用户知晓,哪些数据被监测,哪些数据被利用,被利用在什么地方;还应让用户知晓具体的分析算法是什么,以及该算法如何具体使用其数据。并且,应赋予用户信息使用事先的同意权,以及事后的撤回权、删除权。
除此之外,还应迅速构建起对搜集个人信息的行为的限制与监管体系。应该从法律的高度上保护数据隐私,打破互联网公司与用户之间不对等的权力关系,对涉及数据的采集及其目的使用进行必要的限制,同样需要对数据的使用过程有清晰、明确的边界和能够被严格理解的基本要求。
我们已经进入了一个大数据时代,它具有不可逆转的趋势,并让我们的社会生活实现了里程碑式的跨越;但也应该看到,人们在享受大数据提供的种种便利的同时,某些失控的行为正在发生。我们对此应有足够的重视和警惕——毕竟一旦科技用以作恶,后果比什么都可怕。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27