京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代,谁能阻止信息泄露_大数据培训
大数据及云计算技术从热词到落地,从企业到个人都在享受其带来的福利,数据存储、计算、整合及利用为许多企业带来商机,也为个人提供了更为便捷的互联网服务。但与此同时,用户存储在云端的个人信息数据安全也面临着极大的挑战。
“泄密门”频发
2014年12月底,春运售票初期,铁路客户服务中心12306网站被曝出大量用户数据泄露并在网上传播售卖,这些用户数据包括13万条账号、密码、手机、身份证号、邮箱地址等个人私密信息。一时间,互联网上个人隐私安全及其保护的话题再次成为关注焦点。12306“泄密门”并不单一,近两年,同类事件层出不穷:
2014年3月,乌云漏洞平台曝出在线旅游服务平台携程网支付系统存在技术漏洞,安全支付日志可下载,导致大量用户银行卡信息泄露,这些信息包括持卡人姓名、身份证信息、银行卡号、卡CVV码(即卡号、有效期和服务约束代码生成的3位或4位数字)以及6位卡Bin(用于支付的6位数字)等。
2014年4月,某黑客对国内两家大型物流公司内部系统发起网络攻击,非法获取快递用户个人信息1400多万条,并出售给不法分子。这些个人信息包括用户的姓名、联系电话以及住址等。
2014年5月,电商网站eBay要求近1.28亿活跃用户全部重新设置个人账号密码,eBay透露这是因为黑客能从eBay获取用户密码、电话号码、地址及其他个人数据。
2014年9月,黑客采取突破密码尝试次数的方式破解了众多好莱坞女星的iCloud账号,从而引发了全球轰动的“好莱坞艳照门”事件。虽然事后苹果紧急修复了该黑客利用的漏洞,但该事件足以让云服务上用户隐私的保护获得足够重视。
以上事件仅是具有代表性的个人信息泄露事件。在互联网技术高度发达的今天,几乎所有人都在使用各式各样的互联网服务,我们已经与互联网服务融为一体,从昵称、姓名到银行账号、密码,几乎所有信息都存在于互联网的各类云端、服务器中,个人信息随时都可能遭遇泄露或被窃取。这些个人信息按照敏感与重要程度可分为四类:个人身份信息、个人行为信息、个人隐私信息和个人账号信息(见表1),其重要性呈逐层递增状,如个人账号信息一旦泄露,前面三类信息的获取相对来说轻而易举。并且,个人隐私具有极大的商业价值,容易成为猎取目标,以“个人行为信息”为例,此类信息的收集及应用最直接的表现是在电子商务网络广告中,无论微博还是门户网站,我们通常会发现广告位置展现的是我们曾在电子商务网站上浏览过的商品或类似商品,更不用说如果“个人账号信息”被盗取可能带来的损害。
谁是“泄密者”?
尽管互联网应用服务商、网站服务商及云服务提供商皆承诺能够保护用户数据信息,但互联网环境下没有所谓的百分之百的安全。低级手段如内部人员偷盗售卖数据,高级手段如黑客攻破服务商系统盗取数据等,都是用户数据泄露的罪魁祸首。
1. 服务商内部人员偷盗售卖
内部人员偷盗售卖数据是典型的非技术用户信息泄露方式,但此类方式难以避免,防不胜防。任何一家服务提供商都无法保证其接触用户个人信息数据的员工能够为道德规范所约束,在利益诱惑下,个别员工铤而走险通常难以避免。如2013年11月,从事电商工作的张某因“涉嫌非法获取公民个人信息罪”被杭州市公安局西湖分局刑事拘留。随后,此案牵出某宝前技术员工李某,李某利用工作之便在2010年分多次在公司后台下载了超过20G的用户资料,并与两名同伙将用户信息多次出售给电商公司、数据公司。这些用户资料包括用户真实姓名、手机、电子邮箱、家庭住址、消费记录等。
2. 网络服务安全漏洞被利用
互联网服务由于其特殊性,总是存在有安全漏洞。可以说没有不存在安全漏洞的互联网服务,只是没有被发现而已。
我们来看网站服务方面的安全漏洞情况分析,360互联网安全中心最新发布的《2014年中国网站安全报告》显示,在接受360网站安全监测平台扫描的164.2万个网站中,存在安全漏洞的网站为61.7万个,占扫描网站总数的37.6%。其中,存在高危安全漏洞的网站共有27.9万个,占扫描网站总数的17.0%(见图1)。
由于不同漏洞对网站安全性影响有所不同,360互联网安全中心将网站安全漏洞划分为高危、中危和低危三个级别。其中高危安全漏洞可以让黑客取得服务器控制权限,可以对网站进行肆意更改;中危安全漏洞会造成黑客入侵网站,且可以篡改部分数据;而低危安全漏洞允许黑客扫描网站数据信息,也可能给网站带来危害。
由此可见,我们日常访问的网站中,超过三分之一的网站都存在安全漏洞,而这些漏洞,随时都可能成为个人信息数据泄露的发力点。网络服务的安全漏洞,一方面是由安全技术人员发掘找出,如上述360互联网安全中心通过扫描发现的安全漏洞,这些漏洞会被厂商知晓并修复;另一方面是被黑客发现,如果是白帽子黑客,如在360补天漏洞响应平台上的白帽子黑客,则会提交给厂商进行修复,但如果是抱有恶意的黑客,则可能借机窃取用户数据信息。
网络服务安全漏洞中破坏性最强的莫过于通用性网络软件/服务/协议的漏洞,如在2014年4月曝出的“心脏滴血(HeartBleed)”重大安全漏洞。OpenSSL是为网络通信提供安全及数据完整性的一种安全协议,囊括了主要的密码算法、常用的密钥和证书封装管理功能以及SSL协议。多数SSL加密网站是用名为OpenSSL的开源软件包,而在OpenSSL源代码中发现的“心脏滴血”安全漏洞,可以让黑客每次从服务器或客户端内存中获取最大64K的数据内容。由于OpenSSL是互联网应用最广泛的安全传输协议,被网银、在线支付、电商网站、门户网站、电子邮件等重要网站广泛使用。因此,该漏洞会造成黑客可以从使用OpenSSL协议的网路服务上盗取大量用户数据信息。
3. 木马、钓鱼网站恶意盗取
木马在PC互联网时代最为常见,黑客通过网络入侵、软件安装包伪装等方式将木马放置到用户个人电脑中,然后通过木马盗取用户电脑上的个人信息、账号等。得益于免费杀毒软件的出现,杀毒软件普及率大大提升,现在木马病毒已经越来越少。但在移动互联网时代,偶尔还会出现伪装成手机应用的木马病毒出现,多数存在于Android操作系统环境中。
钓鱼网站无论在PC互联网时代还是如今的移动互联网时代都屡禁不止,它们通常是向用户发送与大型正规网站、服务网站类似的钓鱼网站地址,用户一旦打开登陆并输入账号密码,账号密码便会被不法分子收集利用。
打造“杀手锏”
个人隐私保护在大数据时代变得愈发艰难,从个人角度来讲,想要规避隐私泄漏风险,首先要提高个人账号密码复杂度,尤其是涉及支付类网络服务的账号密码要使用非常用密码,对能够进行多重密码保护的账号尽可能的完成多重保护操作;其次是下载软件或手机应用时要选择正规下载站点或应用商店,尤其是Android用户,不要随便安装不明应用;最后是要养成良好的上网习惯,谨慎提交个人信息,对于安装的手机应用服务,可查看设置权限,禁止获取不必要的个人数据信息。
而从厂商方面来讲,此处引用360公司董事长兼CEO周鸿祎在2014年互联网安全大会上提出的用户信息安全三原则作为指导。他表示,在大数据来临的时代,在憧憬大数据产生商业效应的同时,也应考虑如何保护用户信息,并提出了三原则:
第一,用户信息是用户个人资产。用户在使用厂商设备、软件及服务所产生的数据与信息,应该是用户个人资产,虽然存储在厂商的服务器或云端,但从所有权方面讲应该明确地属于用户,是用户财产。
第二,厂商获取用户数据信息,用户要有选择权、知情权和拒绝权。大数据时代,厂商为用户提供服务同时,会从用户身上获取大量数据信息。对此用户要有知情权,并且,厂商要得到用户授权才能使用用户信息,用户要有选择权、有拒绝权。
第三,安全责任原则。有人认为网络信息安全只是互联网安全公司的事,是杀毒软件的事。但在大数据时代,任何一家互联网公司,包括做可穿戴硬件的公司,都会变成一个互联网服务公司,用户使用这些硬件、服务都会产生大量的数据。所以,任何一家互联网公司都有责任保护用户信息安全,要在云端对用户数据进行足够强度加密,包括安全存储和安全传输。
结语
互联网刚兴起时,有人说,你不知道互联网另一端坐的是一个人还是一条狗。在大数据及云计算落地应用的现在,我们不但可以知道另一端是不是一条狗,还可以知道是雪纳瑞还是萨摩耶。
云端信息数据量还在不断膨胀,文字、图片以及视频的数量在不断增加,这些数字化事物看似凌乱不堪,但如果某一天被泄露或窃取,稍加梳理,也许我们最不为人知最隐私的一面就会曝光于世。那时,你就是一只藏獒,也只是一只被扒光了皮的狗。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23