京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据背景下的信息安全问题_数据分析师培训
大数据具有体量巨大、类型繁杂、处理速度快、价值密度低四大特点,因此,对于个人来说,难以处理极其庞大的数据,只有国家和大型企业等组织或集团才有可能获取到各种敏感信息;大数据所搜集提取的个人信息可能连本人都不完全知晓,比如个人的行为特征、语言风格、爱好兴趣等。在大数据时代如何保护个人敏感信息或隐私,必将成为高难度的世界课题。
2013年6月,美国前中情局雇员斯诺登曝光了始于2007年小布什时期美国国家安全局和联邦调查局启动的代号为“棱镜”的秘密项目。美国国家安全局通过接入雅虎、谷歌、微软、苹果等9家美国互联网公司中心服务器,对邮件、图片、视频、电话等10类数据进行监控,以搜集情报,监视民众的网络活动。
“棱镜”项目缘于2004年美国政府的“星风”监视计划。但是,当时小布什政府由于法律程序等敏感问题而做出让步,美国本土的监听项目有所缩减。为了“星风”计划的继续进行,小布什政府通过司法程序将“星风”监视计划分拆成由国家安全局执行的4个监视计划,包括“棱镜”、“主干道”、“码头”和“核子”,均交由美国家安全局执掌。“棱镜”项目用于监视互联网个人信息。“主干道”和“码头”项目负责存储和分析通信和互联网上数以亿兆计的“元数据”。元数据主要指通话或通信的时间、地点、使用设备、参与者等,不包括电话或邮件等的内容。“核子”项目负责内容信息的获取,截获电话通话者对话内容及关键词,通过拦截通话以及通话者所提及的地点,来实现日常的监控。
由此可见,斯诺登不仅揭露了美国的大规模窃听计划,更揭示了大数据时代国家信息安全保护问题。大数据的分析与使用,无论对个人(如跟踪健康状况防范疾病)、对企业(如了解市场偏好以有效安排产品设计生产营销)乃至对国家(如防范疫情或恐怖主义)显然都有巨大的好处,从商业用途来说,谷歌、微软、雅虎等互联网公司,完全可以通过它们掌握到的数以百万计、千万计甚至亿万计的数据,经由“超级计算”,准确推断消费者的爱好及习惯、商品的销售额、疾病疫情的发展趋势。商业如此,在政治、经济、军事等方面亦存在诸多的用途和潜在利益。像“棱镜”计划里涉及的谷歌、雅虎、苹果、微软等大网站,人们每天由于各种业务需要,会把大量个人信息输入其中,但常常并不被事先告知数据的用途。而这些数据会被企业或政府用来进行一些特殊的计算或分析,如通过对大数据的分析预测来对人们尚未实施的行为进行惩罚。比如“大数据之父”舍恩伯格曾披露过一个例子:在美国有一个计划名为“预测式配警”,通过对大数据分析来预测美国某个城市的某条街道的某个时段是犯罪高峰时段,然后在那个位置部署更多的警力。从此该地区居民将长时间被监控,这是一种变相的侵犯或惩罚。他们不是因为做错事,而是因为某个计算机的算法预测他们可能做错事而被惩罚了,显然这是不公平的。美国国安局拥有的正是类似的一套基于“大数据”的新型情报收集系统,这套名为“无界爆料”的系统,以30天为周期,从全球网络系统中接收到970亿条讯息,再通过比对信用卡或者通讯记录等方式,能几近真实地还原个人的实时状况。当然,像谷歌这样的商业组织也有可能掌握同样量级的信息而进行商业预测分析。因此,必须建立一套规则予以规范和约束对大数据的收集和使用。第一,虽然这些信息储存在不同的服务器上,但这些数据是用户的资产,拥有权属于用户自己而不是这些公司,这是必须明确的,就像财产所有权一样,个人隐私数据也应该有所有权。第二,利用大数据、云计算技术给用户提供信息服务的公司或企业,需要把收集到的用户数据进行安全存储和传输,这是企业的责任和义务。第三,如果企业或政府要使用用户的信息,一定要让用户有知情权和选择权,泄露用户数据甚至牟利,不仅要被视作不道德的行为,而且是非法行为。
大数据时代的数据存储和应用方式是跨地域甚至是跨国界的。作为国家层面要将大数据上升为国家战略,奥巴马政府在2012年3月将“大数据战略”上升为最高国策,像陆权、海权、空权一样,将对数据的占有和控制作为重要的国家核心能力。我国也应从国家高度重视大数据,在对其进行安全保护、政策制定需要重视三个方面:一是要正视数据霸权,要清醒认识到我国在网络控制权、关键技术和高端设备等方面,还受制于西方。二是要明确主权,数据作为一种重要的战略资源,无论是个人拥有还是国家拥有,都要纳入到主权范围里面来考虑。三是要有治权,因为有主权不一定能够管治。比如:数据存到国外,云计算跨越国境,可能不在你的主权范围之内。要区别对待不同的数据,对确需保护的数据,必须有切实可靠的手段进行有效管理。如果做不到对数据的有效管理,大数据就必然面临失控的危险。
政策界定安全责任问题。大数据的安全问题涉及政府、相关企业、网络运营商、服务提供者,以及数据产生者、使用者等方方面面,必须对各自的安全责任有明晰的政策界定。信息安全风险存在于数据的全生命周期之中,从技术思路、产品开发、用户使用、服务管理,各个环节均要分担相应的安全责任。
监管保障基础设施安全问题。大数据的发展离不开电信网络甚至工控系统等关键基础设施,其安全可靠同样依赖于这些基础设施,受供应链全球化、产业私有化的影响,网络与关键基础设施间的安全日趋复杂,一国的大数据可能存放在别国的网络中,一国的基础设施可能同时服务于多个国家,高度的全球相互依赖性,挑战着原有的国家主权观念。所以,关键基础设施的安全监管体系十分重要,我国需要尽快确立对供应链的实质性国家安全审查和对基础网络的常态化安全监管。
网络空间冲突管理问题。大数据的资源价值越来越高,围绕大数据的争夺和冲突就越来越激烈。大数据的生成、处理和利用方式,将极大改变各种冲突的表现方式和破坏烈度。通过立法与国际合作应对包括知识产权的保护、网络犯罪的处置、网络破坏活动特别是网络恐怖主义的打击以及网络战争的威胁。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15在统计学领域,二项分布与卡方检验是两个高频出现的概念,二者都常用于处理离散数据,因此常被初学者混淆。但本质上,二项分布是 ...
2025-12-15在CDA(Certified Data Analyst)数据分析师的工作链路中,“标签加工”是连接原始数据与业务应用的关键环节。企业积累的用户行 ...
2025-12-15在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12