京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据安全的六大挑战_数据分析师考试
大数据的价值为大家公认。业界通常以4个“V”来概括大数据的基本特征——Volume(数据体量巨大)、Variety(数据类型繁多)、Value(价值密度低)、Velocity(处理速度快)。当你准备对大数据所带来的各种光鲜机遇大加利用的同时,请别忘记大数据也会引入新的安全威胁,存在于大数据时代“潘多拉魔盒”中的魔鬼可能会随时出现。
挑战一:大数据的巨大体量使得信息管理成本显著增加
4个“V”中的第一个“V”(Volume),描述了大数据之大,这些巨大、海量数据的管理问题是对每一个大数据运营者的最大挑战。在网络空间,大数据是更容易被“发现”的显著目标,大数据成为网络攻击的第一演兵场所。一方面,大量数据的集中存储增加了泄露风险,黑客的一次成功攻击能获得比以往更多的数据量,无形中降低了黑客的进攻成本,增加了“攻击收益”;另一方面,大数据意味着海量数据的汇集,这里面蕴藏着更复杂、更敏感、价值巨大的数据,这些数据会引来更多的潜在攻击者。
在大数据的消费者方面,公司在未来几年将处理更多的内部生成的数据。然而在许多组织中,不同的部门像财务、工程、生产、市场、IT等之间的信息仍然是孤立的,各部门之间相互设防,造成信息无法共享。那些能够在不破坏壁垒和部门现实优势的前提下更透明地沟通的公司将更具竞争优势。
【解决方案】 首先要找到有安全管理经验并受过大数据管理所需要技能培训的人员,尤其是在今天人力成本和培训成本不断上升的节奏中,这一定足以让许多CEO肝颤,但这些针对大数据管理人员的巨额教育和培训成本,是一种非常必要的开销。
与此同时,在流程的设计上,一定要将数据分散存储,任何一个存储单元被“黑客”攻破,都不可能拿到全集,同时对于不同安全域要进行准确的评估,像关键信息索引的保护一定要加强,“好钢用在刀刃上”,作为数据保全,能够应对部分设施的灾难性损毁。
挑战二:大数据的繁多类型使得信息有效性验证工作大大增加
4个“V”中的第二个“V”(Variety),描述了数据类型之多,大数据时代,由于不再拘泥于特定的数据收集模式,使得数据来自于多维空间,各种非结构化的数据与结构化的数据混杂在一起。
未来面临的挑战将会是从数据中提取需要的数据,很多组织将不得不接受的现实是,太多无用的信息造成的信息不足或信息不匹配。我们可以考虑这样的逻辑:依托于大数据进行算法处理得出预测,但是如果这些收集上来的数据本身有问题又该如何呢?也许大数据的数据规模可以使得我们无视一些偶然非人为的错误,但是如果有个敌手故意放出干扰数据呢?现在非常需要研究相关的算法来确保数据来源的有效性,尤其是比较强调数据有效性的大数据领域。
正是因为这个原因,对于正在收集和储存大量客户数据的公司来说,最显而易见的威胁就是在过去的几年里,存放于企业数据库中数以TB计,不断增加的客户数据是否真实可靠,依然有效。
众所周知,海量数据本身就蕴藏着价值,但是如何将有用的数据与没有价值的数据进行区分看起来是一个棘手的问题,甚至引发越来越多的安全问题。
【解决方案】 尝试尽可能使数据类型具体化,增加对数据更细粒度的了解,使数据本身更加细化,缩小数据的聚焦范围,定义数据的相关参数,数据的筛选要做得更加精致。与此同时,进一步健全特征库,加强数据的交叉验证,通过逻辑冲突去伪存真。
挑战三:大数据的低密度价值分布使得安全防御边界有所扩展
4个“V”中的第三个“V”(Value),描述了大数据单位数据的低价值。这种广种薄收似的价值量度,使得信息效能被摊薄了,大数据的安全预防与攻击事件的分析过程更加复杂,相当于安全管理范围被放大了。
大数据时代的安全与传统信息安全相比,变得更加复杂,具体体现在三个方面:一方面,大量的数据汇集,包括大量的企业运营数据、客户信息、个人的隐私和各种行为的细节记录,这些数据的集中存储增加了数据泄露风险;另一方面,因为一些敏感数据的所有权和使用权并没有被明确界定,很多基于大数据的分析都未考虑到其中涉及的个体隐私问题;再一方面,大数据对数据完整性、可用性和秘密性带来挑战,在防止数据丢失、被盗取、被滥用和被破坏上存在一定的技术难度,传统的安全工具不再像以前那么有用。
【解决方案】 确立有限管理边界,依据保护要求,加强重点保护,构建一体化的数据安全管理体系,遵循网络防护和数据自主预防并重的原则,并不是实施了全面的网络安全护理就能彻底解决大数据的安全问题,数据不丢失只是传统的边界网络安全的一个必要补充,我们还需要对大数据安全管理的盲区进行监控,只有将二者结合在一起,才是一个全面的一体化安全管理的解决方案
挑战四:大数据的快速处理要求使得独立决策的比例显著降低
“4个“V”中最后一个“V”(Velocity),决定了利用海量数据快速得出有用信息的属性。
大数据时代,对事物因果关系的关注,转变为对事物相关关系的关注。如果大数据系统只是一种辅助决策系统,这还不是最可怕的。事实上,今天大数据分析日益成为一项重要的业务决策流程,越来越多的决策结果来自于大数据的分析建议,对于领导者最艰难的事情之一,是让我的逻辑思考来做决定,还是由机器的数据分析做决定,可怕的是,今天看来,机器往往是正确的,这不得不让我们产生依赖。试想一下,如果收集的数据已经被修正过,或是系统逻辑已经被控制了呢!但是面对海量的数据收集、存储、管理、分析和共享,传统意义上的对错分析和奇偶较验已失去作用。
【解决方案】 在依靠大数据进行分析、决策的同时,还应辅助其他的传统决策支持系统,尽可能明智地使用数据所告诉我们的结果,让大数据为我们所用。但绝对不要片面地依赖于大数据系统。
挑战五:大数据独特的导入方式使得攻防双方地位的不对等性大大降低
在大数据时代,数据加工和存储链条上的时空先后顺序已被模糊,可扩展的数据联系使得隐私的保护更加困难。过去传统的安全防护工作,是先扎好篱笆、筑好墙,等待“黑客”的攻击,我们虽然不知道下一个“黑客”是谁,但我们一定知道,它是通过寻求新的漏洞,从前面逐层进入。守方在明处,但相比攻方有明显的压倒性优势。而在大数据时代,任何人都可以是信息的提供者和维护者,这种由先天的结构性导入设计所带来的变化,你很难知道“它”从哪里进来,“哪里”才是前沿。这种变化,使得攻、防双方的力量对比的不对等性大大下降。
同时,由于这种不对等性的降低,在我们用数据挖掘和数据分析等大数据技术获取有价值信息的同时,“黑客”也可以利用这些大数据技术发起新的攻击。“黑客”会最大限度地收集更多有用信息,比如社交网络、邮件、微博、电子商务、电话和家庭住址等信息,大数据分析使“黑客”的攻击更加精准。此外,“黑客”可能会同时控制上百万台傀儡机,利用大数据发起僵尸网络攻击。
【解决方案】 面对大数据所带来新的安全问题,有针对性地更新安全防护手段,增加新型防护手段,混合生产数据和经营数据,多种业务流并行,增加特征标识建设内容,增强对数据资源的管理和控制。
挑战六:大数据网络的相对开放性使得安全加固策略的复杂性有所降低
在大数据环境下,数据的使用者同时也是数据的创造者和供给者,数据间的联系是可持续扩展的,数据集是可以无限延伸的,上述原因就决定了关于大数据的应用策略要有新的变化,并要求大数据网络更加开放。大数据要对复杂多样的数据存储内容做出快速处理,这就要求很多时候,安全管理的敏感度和复杂度不能定得太高。此外,大数据强调广泛的参与性,这将倒逼系统管理者调低许多策略的安全级别。
当然,大数据的大小也影响到安全控制措施能否正确地执行,升级速度无法跟上数据量非线性增长的步伐,就会暴露大数据安全防护的漏洞。
【解决方案】 使用更加开放的分布式部署方式,采用更加灵活、更易于扩充的信息基础设施,基于威胁特征建立实时匹配检测,基于统一的时间源消除高级可持续攻击(APT)的可能性,精确控制大数据设计规模,削弱“黑客”可以利用的空间。
大数据时代已经到来,大数据已经产生出巨大影响力,并对我们的社会经济活动带来深刻影响。充分利用大数据技术来挖掘信息的巨大价值,从而实现并形成强有力的竞争优势,必将是一种趋势。面对大数据时代的六种安全挑战,如果我们能够予以足够重视,采取相应措施,将可以起到未雨绸缪的作用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04