
大数据时代个人信息安全谁来管
在大数据时代,数据将会被更好的分析和利用,原本看似无意义的数据都可能产生极大的商业价值,这是大数据鼓吹者们一直在为我们画的一张大饼。然而,对于我们普通个体而言,短期内大数据带来的收益可能是有限的,风险反倒极大的增大。目前看起来,对个人而言应对大数据带来的风险没什么有效措施,除了做鸵鸟,减少在社交等媒体发布隐私信息外,就只能拼人品了。
当隐私泄露成为了习惯,那么底线在哪里?
在即将快速发展的大数据时代,个人安全如何保证?这是很多人没有意识到的一个问题,究其原因大概是国内信息安全和隐私保护的现状让人很无奈吧。也不得不说我们天朝人士对于隐私泄露的忍耐能力很强大,以至于形成了视而不见的习惯,而商家对隐私的保护也习惯于无所谓的态度。
随着互联网进一步走向下一个颠覆时期,整个产业也在高呼从IT到DT的时代已经来临,这就是一直在热炒的大数据的范畴。大数据有多大,谁也说不清楚,有些人可能知道4V或者5V什么的,更有些人了解大数据带来的相关关系等特性。
然而,大众虽然对“大数据”这个词已经耳熟能详了,但是对它将带来的变革和风险却没有什么概念,总觉得距离人们的生活还很远。所以本文就重点谈一下在不久的将来大数据时代,将如何影响我们个人的信息安全以及人身安全。
本文不想说教和解释大数据本身,纯学术的探讨对于理清其带来的安全问题,以及帮助大家理解没有太大作用。所以关于风险那部分,我用几个亲身体会以及朋友遇到的例子来给大家介绍一下
大数据应用发展的现状
大数据技术和应用本身不神秘,也距离我们很近,甚至我们每天用的Google提供的很多服务、淘宝网提供的数据魔方等,背后都有大数据技术和应用的支撑。
很多大数据的书上都把Google作为大数据技术发展的主要贡献者。相对于这种背后隐藏的大数据技术应用,现在常见的几种大数据应用类型包括:
l 基于用户位置的数据分析,例如地图、交通信息等
l 基于用户行为特征的精准营销,网上很多广告推荐背后都基于这种方式
l 基于用户社交关系的分析和推荐,舆情监测等
l 其他用于公安系统、宏观数据分析、金融风险分析等领域距离我们个人来说有点远,一般没有直接触感。
总体来说,大数据分析的技术和应用类型,还有待丰富,从大数据带给我们的想象力而言,当前大数据技术发展和应用的推广才属于刚刚开始的阶段。
大数据应用带来的关键变化
大数据脱胎于原来的经营分析BI(Business Intelligence),BI是为了解决人们对于企业经营数据多维度的分析和洞察,从而支撑企业领导人做决策。
大数据解决了什么问题呢?首先,它是BI的升级版,除了分析企业内部经营类信息之外,还可以融入大量以前看起来不相关和不可利用的数据,图片、日志、社交、及其数据等等都在他的范畴之内。当然这种分析还不是很成熟,带来的价值还比较初级,目前,能对数据分析达成熟级别的大数据企业凤毛麟角。
其次,大数据对于数据价值的发现和深度挖掘,其价值可以作为新业务进行开放,这也是目前很多企业重视大数据的重要原因。当然,大数据这么火也不乏IT业界的吹捧和一些大数据相关企业的超规模宣传导致的。
最后,大数据有一个很重要的特征是分析对象之间的相关关系。这是区别于以前很多数据分析的地方。从追求因果关系到相关关系,这是适应当前世界“超级连接”的发展趋势的。
说到这里,就要引出对于我们个人隐私和安全来说非常重要的部分了。
当“人肉搜索”从手工变为自动
我们个人的某些信息虽然被泄露,但是人与人之间的相关关系,在以前是不容易被陌生人获得的,但是随着网络的发展和普及,我们在网络上有意无意的暴露了大量信息,使有心人可以获得关于我们个人的许多信息,通过这些信息的关联,可以还原个人的很多特征。
几年前闹得沸沸扬扬的“人肉搜索”事件,就是通过人工来进行个人信息检索,通过一件件小的线索,追溯个人的更多信息和关系。在远洋那个楼盘的“小三事件”以及女主人公的自杀日记,对很多人来说都是印象深刻的。
通过大量网友的人工搜索和信息汇集,大家知道了男主人公、女主人公、小三之间的相关关系,以及很多个人特征:单位、住所、联系方式、父母等等。
整个事件可以看作是人工的大数据分析,现在的大数据分析通过机器学习、算法、分布式集群等技术,能够使这个过程自动化,并且更高效。
想象一下,你在网上的一举一动,都可以被监测到,并还原出你的“人物画像”,然后更恐怖的是,你和家人、朋友、同学等各种相关人员的关系能够被机器识别,并分析出来。
你我将面临什么样的潜在风险?
大数据的广泛使用以及隐私信息的泄露,将不可避免的带来更多的个人风险,并在现有风险之上进行升级,新的诈骗等手段也将出现。接下来,简单的分析一下几种潜在的风险类型,仅针对个人最可能遇到的情况。
目前不法分子以及电话营销的公司对我们个人信息的掌握,主要还是个人电话号码和名字这两种核心信息,当然不排除其他个人信息也被掌握,比如单位和家庭住址等。随着网购的普及,家庭以及单位送货地址被很多快递公司掌握,任何一个点的泄露都将导致全部失守。
总体来说这些信息,都是针对个人独立的,或者说最多是个人特征信息的还原。IT领域常用的一个词:“信息孤岛”。我觉得形容这种情况有异曲同工之妙。但是随着大数据技术应用的升级,我们个人的信息孤岛,将会被连通和关联,形成一个“个人信息网络”,主要是和你个人相关的关系信息。这时候,我们可能面对以下几种升级的威胁方式。
1. 诈骗和骚扰
当前我们主要遇到的骚扰和诈骗内容,主要是通过电话的渠道,可能有:推销、电信诈骗、熟人诈骗等。如果我们个人和家人、朋友、同学等相关信息被有心人利用的话,将大大的增加被精准欺骗和诈骗、被精准骚扰(被营销)的情况。
举个例子,就我个人经历来看,曾经有几次处于被诈骗的边缘,最后幸运女神眷顾才免于损失。如果将来别有用心的人可以清楚的知道我的位置、我家人的位置、在做什么事情,把这些信息连接起来,告诉我说我某个朋友或者家人在某地出差,在什么位置出了什么意外,那么这种情况下可信度就高了很多,很多时候不好验证真伪,也增加了被骗的几率。
2. 金融风险和财务损失
当前网上购物、网上支付等手段很普及,随之带来的被盗刷、账户被盗等现象也多了起来。我相信将来随着我们的个人信息更多的被连接和分析,那么我们的账户、密码、手机号、身份证号这些信息都会相对容易的被不法分子获取,并造成我们的经济损失。
3. 个人声誉的损失
几年前的“人肉搜索”对我们造成的触动已经很大了。那么将来如果个人信息不能得到良好保护的话,在网上真的是可以轻松的还原一个人的真实信息和社会关系信息。
如果做人、做事都很正,你也许觉得没什么需要担心的,即使信息泄露了也不影响你的声誉。但是,请你注意人们对信息的解读是有偏好、不全面、误解等现象的,特别是在互联网上的舆论,如果网上有人或者公司推波助澜,你可以想象一下你真的不会被颠倒黑白,受到声誉损失的影响吗?特别是通过把你的个人信息和相关性关系信息描述的完全准确,仅仅掺杂了1%的假的摸黑信息,这时候听众和观众是无法分辨也不愿意去分辨信息真伪的,选择相信不寻常的信息、传播、看热闹和从众心里是网上民众们最热中的事情。
我就举这么几个例子,不想说的太细了,关于大数据应用普及之后的影响,大家自己体会吧。下面说说我们应该怎么降低和避免这种个人风险呢。
怎么办?真的只能靠个人和拼人品!
对于信息安全以及因此带来的风险,我们通常归咎于三方来负责:
l 国家相关部门
l 持有数据相关企业
l 贡献和保有数据的个人
但是目前看起来,只有第三个是靠谱的。这么说吧,靠企业自律?那估计不如相信母猪会上树。企业总是有意或者无意的,被动或者主动的,把我们的信息泄露或者用于商业目的。
靠政府相关部门监管?政府的确会做,不过不知道等到神20上天的时候,是不是能够有具体的监管措施处理,并且能良好的落地执行。
不是有这么句网络名言吗:我国政府最忙碌的部门就是“相关部门”。这个部门很忙的,不知道什么时候才能等到相关部门,能够真正解决这个大数据带来的隐私泄露和个人风险增加的问题。
所以最后我们就靠自己吧,尽可能在下面这些事情上注意保护个人隐私,并祈祷人品和运气别太差。
1. 不要在微博、微信等社交媒体发布太多的个人隐私信息,这些地方是大数据分析的重点。个人和家人照片、视频等尽可能避免公开,防患于未然吧。
2. 不要在网上写日记、流水账等实际生活的实名信息,这些太容易被泄露和搜索到了
3. 和金融相关的安全措施尽可能都应用上,密码定期修改,并有一定的复杂度。
4. 个人的重要帐号和密码,不要随便用在其他网站、论坛、服务的注册信息中,很多站点是没办法保护好你这些信息的。连CSDN、京东、携程、Amazon这种大网站都无法有效保护你的帐号、密码、信用卡等信息,所以千万不要用同一个帐号和密码在所有的网站进行注册。
5. 时刻具有安全和警示意识,不要贪小便宜,遇事多方求证和征求旁观者的意见。
6. 教育和管理好你的“队友”。不怕神一样的对手、就怕猪一样的队友,绝对是至理名言。
最后用一句话来概括一下本文,当隐私泄露成为习惯、当大数据等新技术增强了个人泄露信息的价值、当短期内没有人和部门能对此负起责任,那么就靠我们自己吧。把更多信息隐藏在水面之下,并时刻注意冰山之下隐藏的风险。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14