京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据卖的就是隐私_数据分析师考试
随着互联网技术更新换代,数据的大规模采集和分析使用,已是人们生活的常态。高端分析算式的研发,使抽取数据中藏着的有用信息成为现实。于是数据的魔力大放异彩,给我们带来了梦寐以求的便利。例如,商家仿佛钻进消费者肚子里的孙悟空,你才转了个念头,电脑和手机就奇迹般地开始推送相关的商品广告了。真应了那句老话:心想事成。当然,我们也添了许多闻所未闻的麻烦,比如刚接通一个免费WiFi,银行账户信息就莫名其妙地泄露了。电视台天天报道,告诫大家警惕。但在市场弄潮儿眼里,数据还有更为奇妙的神功,那就是取之不尽、用之不竭的廉价原材料——元数据。元数据追踪着我们的生活,一刻不停又无处不在,仿佛一座座富矿,等待着算式处理、点石成金。多少人想挖掘这富矿……现在,终于打通了矿井,而那最后的爆破就是:数据商品化,公开合法的交易。
然而,要把数据交易这颗“明珠”稳稳当当地放上数据产业金字塔的顶端,尚有一道难题需要回答:数据要当做商品,它的所有权何在?
一样东西之成为商品,一是因为它有某种使用价值,如饮食、观赏、制作工具等;二是因为有人拿它来买卖,即实现其可交换的价值。如此就有了价格和市场。一般来说,商品的产权清晰,买卖才做得成。明确的所有权(ownership)归属,是商品参与市场交易的前提条件,而所有权的界定有赖于一套稳定的社会道德伦理和法律规范;否则就难以有效行使产权,包括市场交易,并合理合法地解决相关的纠纷。显然,数据作为商品,也不例外。不幸的是,信息时代虽然来临,数据的财产所有权却一直缺乏规范,滞留在法律的灰色地带。因此,海量的数据挂牌交易,对于市场秩序和交易双方,就充满了法律风险;而且,从社会公正的角度看,还极易损害被记录主体的一些公民基本权利,包括人格权与财产权,影响到民众的医保、生育、就业和人身自由权。为了降低并管控这些风险,我们有必要研究一下数据所有权的归属,对数据商品化,即新产权的攫取和扩张可能带来的社会后果考察一番。
数据的所有权到底该归谁?如,你在网上购物生成的数据,产权属于网店、网上购物平台提供商,还是你自己?患者就诊,病史信息归病人、医院,还是医院的电脑系统提供商?社保个人账户数据,属于参保者、政府、共同基金,抑或网络系统外包商?这是回避不了的问题,现行法律规范和学说却显得捉襟见肘,拿不出有说服力又便于操作的答案。为什么呢?我们仔细思考便会发现,那困境的起因,在于数据的不同寻常的价值特征,或者说,在于它正在获得的市场新身份——商品。
数据,若是指记录下来的一组信息,并不是什么新鲜事。自人类发明了记录工具和手段,如文字符号、纸张和硬盘,数据就一直伴随着我们。历史上,所有权不太受关注,是因为数据一般不会被当作商品,不参与市场交易;私下或非法的付费(如贿赂和谍报活动)不算。互联网技术大规模开发了数据的价值,数据商品化,所有权问题才凸显了。
作为商品,数据具有类似无形财产的特征,可以无限复制而无损耗;其所有权、许可使用、收益和转让,都依赖法律的保障。一般认为,无形财产的权属界定有一个特点,初始所有权与财产的生成及价值起源挂钩。例如,文学艺术作品的版权首先属于作者,因为作品是通过作者的劳动才产生,并有了价值。同样的素材,让不同的作者来创作(包括集体创作),作品的内容风格可以千姿百态。这说明,作品蕴含了作者的思想人格。所以,现代法律才把无形财产的初始所有权视为创作的果实,并把作品价值归于作者的人格和创造性劳动。恰恰在这一点上,数据与别的无形财产如版权,分道扬镳了。
我们知道,跟文艺创作和技术发明不一样,数据的价值不是因记录者的制作而起的。数据只有忠实于被记录主体,准确反映后者的身份性格行为习惯等等,才具有价值。换言之,记录下来的信息必须“无创见”、“非创新”,客观得像一面镜子,才有实用价值。不论血糖血脂的定期测量、消费习惯或借贷信用的曲线,还是网民访问网页的点击数、气候变化同粮食收成或公司营运的相关性数据:脱离了具体的被记录的人、物、事,数据是无意义、无价值也不能用的。不忠实的记录如果不是疏忽,便是编造,是假数据。可见,数据的全部价值,就在百分之百依附于被记录主体,而不能剥离了独立存在。于是,根据上述无形财产的一般原理,作品价值与初始所有权统一,数据所有权的生成(subsistence)应是在被记录主体。
这道理也符合我们的常识。比方说,同样一套数据,换一个人或一家公司记录,或者换一台电脑来处理、储存,丝毫不会改变数据内容。就数据的价值而言,谁来记录和用什么工具记录并不重要,重要的是被记录的是谁、是什么。诚然,数据的采集整理离不开记录者和记录工具,乃至投资方的支持。但投资和采集整理产生的是次生的权利,动摇不了数据的初始所有权。因为数据从属于被记录主体,两者不可分离,是数据价值的所在。而记录者及其工具手段与数据内容的关系则是松散的、可置换的,不是数据价值的起源。故而数据的初始财产权属于被记录主体,不仅有学理和社会道德的支持,落实在新产权的建设上,似乎也应是权利配置的“自然”选择。
不过,学理归学理,现实世界里大数据的监管,法律法规才刚起步,不太给力。这里涉及大数据的另一个特征:所有权人同记录者 / 占有者的分离,即数据的财产所有权人一般不是数据的记录和持有者——所有权人非但不占有数据,连接触、支配自己的数据财产也很困难。平常所谓财产问题,财产或者掌握在产权人手中,或者有明确的合同委托监护,如房产、首饰、存款。至少,产权人知晓财产的存在和财产权的归属。产权人有意愿,且依法有能力,行使自己的权利。但是遇到数据财产,情况就变了。例如,网店的交易双方可能不清楚,自己的行为已经被平台提供方记录在案,更无从了解是如何记录的,放进了哪些数据集,会交付谁使用,怎样使用。又如,互联网搜索器记录下的搜索行为的每一个细节,用户是无权访问,也没法监督的。这就使得被记录主体处于一个尴尬境地:他虽然拥有理论上的数据所有权,实际上却很难行使。反观数据记录者,尽管没有初始产权,却因为拥有记录工具和手段,就控制了记录过程、内容、格式和结果,把数据牢牢握在手中。而且,这法律意义上的受委托方,甩开了委托人 / 被记录主体,成了数据的唯一持有者。更微妙的是,大数据以量取胜,孤立的单个数据几乎没有商品价值;故而多数被记录主体容易忽视自己的数据产权。但是一个个数据集腋成裘,便是宝藏。而大型数据集的处理使用,须借助复杂的分析算式与大功率计算机,老百姓和小公司难以问津。渐渐地,大数据的采集整理,便成了财力雄厚的大公司的专利。产权人的疏忽或无力,即占有者的便利。后者往往随意使用数据,出了问题,后果也难以追究,包括数据丢失、黑市交易,更不要说个人隐私满天飞了。这是大数据时代的一道世界性的难题。
正是意识到这种复杂性,数据产业才决定绕开所有权,快刀斩乱麻:成立大数据交易所,挂牌交易,用既成事实“倒逼”社会和法律默许。推手希望通过交易所,给数据披上一件崭新的外衣,遮住所有权上的瑕疵。同时,利用媒体开展宣传攻势,淡化对个人隐私和公共利益的威胁,声称:“交易所交易的不是底层数据,而是清洗、分析、建模之后的数据结果。”(见《贵阳日报》2015年5月16日头版)似乎经过“清洗”,一下子解决了两个敏感问题:一、数据集经过清洗,遮蔽了身份信息,个人隐私、技术秘密等就能获得保护;二、清洗过后,数据便摆脱了初始所有权而有了新的业主,可以合法交易了。但事实上,所谓“清洗” 并不等于“脱敏”。更重要的是,法理上,“清洗”这一技术手段不可能将“底层数据”的所有权转移到所谓“数据结果”。就像拿了别人的珍珠项链,不会因为把珍珠拆下重新串过,项链变长变短,或者镶在几只胸针上,那些珍珠就变成自己的财产,就可以合法出售。所以“清洗”只是回避问题的一种说法;那被回避的,才是数据商品化的要害所在:底层数据到底属于谁?谁说了算?
所以不是偶然,最近美国多个农会的一次联合行动,正是这样的质问和拒绝“倒逼”。他们的立场与上述讨论殊途同归,我以为代表了国际潮流,体现了前沿社会在数据所有权归属及衍生权利范围等问题上的基本共识。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27