京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据安全面临系列挑战_数据分析师
随着大数据时代的到来,数据的收集和存储更加方便,同时跨境流动更加频繁,安全问题愈发凸显。我国在发展大数据产业的过程中,部分企业收集用户数据的使用权限边界界定不清,用户隐私和权益遭受侵害,一些重要数据被非法倒卖、流向他国,安全威胁已经从个人层面上升至国家安全层面,亟须引起重视。
安全风险不断提升 隐私保护内涵拓展
伴随网络化社会的不断发展和技术水平的不断提升,大数据安全风险也不断增加。首先,网络化社会无处不在的智能终端、互动频繁的社交网络和超大容量的数字化存储,为获取和存储大数据提供了一个开放、互联的平台。基于云计算的网络化社会,使分布在不同地区的资源可以快速整合、动态配置,实现数据集合的共建共享。但这一平台的开放性,也使得蕴含海量信息和潜在价值的大数据更容易吸引黑客的攻击。对于攻击者而言,由于这些信息的相互关联,用相对低的成本便可获得“滚雪球”般的收益。
同时,技术的发展也增加了安全风险。计算机网络技术和人工智能的发展,服务器、防火墙、无线路由等网络设备和数据挖掘应用系统的广泛应用,为大数据自动收集效率和智能动态分析提供了方便,但也增加了大数据的安全风险。一方面,由于对大数据的安全控制力度不够,应用程序编程接口的访问权限控制以及密钥生成、存储和管理方面的不足都可能造成数据泄露;另一方面,攻击技术不断提高,大数据本身可能成为一个可被持续攻击的载体,隐藏其中的恶意软件和病毒代码很难被发现。
2014年8月,中国互联网协会发布的《中国网民权益保护调查报告(2014)》显示,2013年7月至2014年7月,中国网民因各类侵权遭受的损失合计约1434亿元,其中直接经济损失约为1093亿元。
大量事实表明,如果不能妥善处理大数据安全问题,将对用户的隐私造成极大的侵害。专家介绍,根据保护内容的不同,用户隐私保护可细分为位置隐私保护、标识符匿名保护、连接关系匿名保护等。而与传统的网络安全内容不同,在大数据时代,人们面临的威胁除了个人隐私泄露,还包括基于大数据对人们状态和行为的预测。
被誉为“大数据商业应用第一人”的英国专家维克托·迈尔·舍恩伯格在《大数据时代》一书中举例说,某零售商通过历史记录分析,比家长更早知道其女儿已经怀孕的事实,并向其邮寄相关广告信息。这种针对人们状态和行为的预测,实际上也涉及一种重要的用户隐私。
此外,一些企业认为,经过匿名处理后,信息不包含用户的标示符就可以公开发布。但事实上,仅通过匿名保护难以达到隐私保护目标。例如,美国某公司曾公布匿名处理后的三个月内部分搜索历史,供人们分析使用。虽然个人相关标识信息被精心处理过,但通过其中某些记录项还是可以准确地定位到具体的个人。《纽约时报》随即公布其识别出一位62岁的寡居妇人,家里养了三条狗,患有某种疾病。
另一个相似的例子是,著名的DVD租赁商Netflix曾公布约50万用户的租赁信息,悬赏100万美元征集算法,以期提高电影推荐系统的准确度。但是当上述信息与其他数据源结合时,部分用户还是被识别出来。
专家介绍说,目前用户数据的收集、存储、管理与使用等均缺乏规范,更缺乏监管,主要依靠企业自律,用户无法确定自己隐私信息的用途。全球权威大数据专家阿莱克斯·彭特兰教授,针对大数据安全提出了“数据上的新决议”三原则,即用户有权拥有自己的数据,有权掌控数据的使用,有权销毁或贡献自己的数据。
跨境流动风险加剧 数据倒卖凸显监管缺失
本刊记者了解到,目前一些外国企业正在大量收集和分析我国用户的大数据资料。美国微软公司推出智能聊天机器人“小冰”,通过其强大的大数据分析技术能力,收集和分析了中国6亿多网民多年来的聊天记录。目前微软“小冰”已同米聊、易信等多家我国即时通讯工具进行合作开发,通过分析用户聊天内容进行商业开发。
最高人民法院中国应用法学研究所所长孙佑海说,虽然微软公司承诺仅将“小冰”收集的数据传输到云端,并不保存,但实际上无人知晓微软公司是否真的不保存数据,即便不存储数据,美国情报部门仍然可以在通信信道上监听,这将给我国的网络信息安全带来巨大隐患。
孙佑海指出,网络空间的资源分配权一直掌握在美国政府控制下的“互联网名称与数字地址分配机构”(ICANN)手中。目前,我国和ICANN签订的入网协议并未对外公开,从台湾网络资讯中心(TWNIC)和ICANN共同签署的入网协议的内容来看,根本没有防止监控和窃取入网国家和地区的网络信息等安全保障方面的约定。
我国一些网络运营商和企业将收集而来的数据信息进行大数据分析,分门别类整理后销售给他人,为自己牟取巨大利益,给用户带来巨大的安全隐患。
本刊记者采访发现,除了多年前就十分普遍的手机信息泄露,当前网上非法倒卖银行卡信息的行为也变得十分猖獗,严重威胁到国家金融安全。而对倒卖银行卡信息的行为,目前我国并没有相应的刑法罪名,且行政处罚又缺乏明确的法律依据,只能依据居民身份证法对违法使用身份证办理银行卡的行为处以200元以下的罚款,违法成本极低,客观上助长了违法行为的肆虐。
对于国家安全和公共安全,我国建立了对信息和信息载体按照重要等级分级保护的“信息安全等级保护”制度。但孙佑海指出,该制度因缺乏法律依据,贯彻执行情况并不理想。涉及国家安全和公共安全的重点岗位和人员的范围不够明确,网络信息安全保护工作的重点不够突出,一些重点岗位人员既缺乏网络信息安全保护的意识,也缺少网络信息安全的专业技能,更缺乏网络信息安全的保护措施。
数据无界线万物互联带来新问题
在传统的PC互联网时代,电脑连接还有明显的边界,需通过线缆连接,这时的安全问题可以靠防病毒、查杀流氓软件、防火墙等进行防御;但进入到互联网新阶段,特别是移动互联网时代,手机等终端打破了对网络边界的定义,手机和个人隐私信息联系在一起,安全问题变得更加严重。
中国工程院院士邬贺铨说,万物互联时代的设备连接和数据规模都达到了前所未有的程度,不仅手机、电脑、电视机等传统信息化设备将连入网络,家用电器和工厂设备、基础设施等也将逐步成为互联网的端点,远超出传统边界网络安全防御的范围;云计算提高了IT资源使用效率,但其动态虚拟化管理方式、强大的计算与存储能力,也会引发新的安全问题,给安全管理体系带来巨大冲击。
对此,业内人士指出,移动设备的普及正吸引网络黑暗势力将目标转至移动终端,现有的安全防护手段逐渐失去效力,传统的系统安全、边界安全已无法防卫以“数据窃取”和“大数据污染”为目的的恶意威胁,必须以大数据为核心,构建全新的信息安全防护体系。重塑信息安全要遵循三个基本原则,即以保护用户隐私和数据安全为前提,明确用户对信息数据的所有权,明确企业对信息数据的保障义务,并保障用户在信息交换和使用时的知情权,这是万物互联时代保护信息安全的基础。
业内人士认为,大数据的安全应用目前仍多停留于想法,仍需进一步探究如何落地。大数据首先应建设一套规范且灵活的建设标准与运行机制,规范化建设可以促进大数据管理过程的正规有序,实现各级各类信息系统的网络互联、数据集成、资源共享,在统一的安全规范框架下运行。
此外,可考虑建立以数据为中心的安全系统。基于云计算的大数据存储在云共享环境中,为了大数据的所有者可以对大数据使用进行统一控制,可以通过建设一个基于异构数据为中心的安全方法,从系统管理上保证大数据的安全。
还须看到,规范固然重要,如果太过于死板,是不利于安全对抗的,攻击本身就是一种很灵活的过程,安全对抗需要保持高敏感度,在大小对抗中不断完善这个体系。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16