京公网安备 11010802034615号
经营许可证编号:京B2-20210330
详解颇具挑战的大数据安全分析
面向大数据分析的访问控制技术需要基于策略的安全机制,这种安全机制不仅包括用户和角色,还包括上下文。
面向大数据分析的安全颇具挑战性
原因如下:如果你无法当场分析,就需要复制该数据。这时候,关于谁可以在什么样的情况下,查看或更改各种各样数据的所有规定也应该一并复制。而如今,这几乎是不可能完成的任务。
在hadoop/Spark方面,我们只有基于角色的、有限的访问控制列表(ACL),这种安全机制可以说很原始。不过我认为倒是有一条出路:采用基于策略的方法,这种方法已出现在更广泛的安全市场。为了探究这是如何工作的,我们需要回顾访问控制的历史,以及它如何演变、推出一种基于策略的模式。
简述访问控制的历史
起初,使用用户名和密码将可能想要闯入的每个人拒之门外。
这套系统存在一个固有的问题。随着新编写的应用程序越来越多,用户/密码组合的数量往往随之激增,于是我们最后只好为每个应用程序使用不同的用户名/密码。更糟糕的是,一些应用程序需要不同的密码,以便获得不同的安全级别。
我们变乖了,使用用户名划分了“角色”。比如说,我们会有一个“用户/密码”,但是想访问管理员功能,该用户/密码还需要“管理员”角色。然而,每个应用程序往往以自己的方式实施这种机制,所以你仍得记住越来越多的密码。
接下来,我们变得更乖了,设计出了中央系统,它们最终成为了LDAP和活动目录等系统。这类系统将用户/密码合并在一个核心库,并设立了一个地方,以便查询某个用户的角色,但是这在解决一个问题的同时带来了另一个问题。
在理想情况下,每个新的应用程序查看活动目录中的角色列表后,将它们与应用程序角色对应起来,那样就有了清楚的一对一关系。而实际上,大多数应用程序考虑角色的方式不一样;除此之外,就因为你是某个应用程序的管理员,并不意味着你应该是另一个应用程序的管理员。最后,只不过是将数量激增的用户名/密码组合换成了数量激增的角色。
这就引出了一个问题:最后谁来负责增添新的角色?这往往是某种IT管理职能或与人力资源部门共担的职能。由于负责增添角色的那些人很可能并不是非常切实了解应用程序,这到头来通常成了 “经理审批”或“橡皮图章”,这并不好。
许多应用程序仍采用这种方法来解决角色问题:使用活动目录来验证身份,让应用程序处理自己的本地角色实现。这种方法被人津津乐道,因为显然是应用程序管理员知道谁应该有什么样的访问级别。
同时,有些明确的规则并不是很适合用户/角色这种系统。简单来说,因为我是个银行客户,并不意味着我可以从任何账户取钱,哪怕我拥有“能取钱”这一角色。角色常常需要与数据关联起来,这就是为什么ACL与数据存储区中的条目一一对应。也就是说,账户1234拥有一种关联,可以识别我是账户所有者、我的配偶是授权的账户管理员。
然而,一些公司拥有较复杂的规则,比“这是你的吗?”或“你对此记录拥有什么样的权限?”来得复杂。相反,它们使用所谓的“上下文”或“基于策略”的安全规则。换句话说,我可能拥有这种权限:只有在美国境内才可以取钱。在ACL或基于角色的模式中无法表示这一点。相反,我们进入到了基于策略的安全。
你有时只能做某些事情
基于策略的安全往往存在于中央库,依赖中央验证机制(LDAP和Kerberos等)。区别在于,每个用户与一组策略关联起来,而不是维持简单的角色(比如“能取钱”)。策略基于关于用户的一组属性,又叫基于属性的访问控制(ABAC)。那些策略无法集中执行,因为它们完全依赖应用程序。
已经有支持这种方法的标准,一方面来自国防业及其他个别行业。可扩展访问控制标记语言(XACML)就是这样一种标准,它让你可以表示一组组策略。通常基于应用程序来完成执行,使用某种算法或规则系统。XACML是一种用于表示策略的相当全面的标准,甚至可以处理异常,比如策略冲突,或两种算法执行一个策略。
就像RBAC那样,ABAC驱动的这些策略常常基于数据,而不是单单基于应用程序功能(只有你在美国境内为这某一家公司工作,而且是遵纪守法的公民,才可以访问F-22战斗机的图表)。运用策略的头一步就是,常常识别策略规则应该适用于哪个数据,并“标记”该数据。
为何要关注先进安全?
很显然,使用ABAC式样的策略和XACML比RBAC迈进了一大步。即使只为了避免遭受巨额罚款,你也应该有动机这么做。
此外,有些企业组织有复杂的规则和数据所有权。随着这些公司日益变得数据驱动型,无法当场分析每个数据,它们需要一种并不仅限于如今的常见RBAC模式的系统,而不是需要集中。此外,为了让这切实可行,它们还需要标记以及便于运用以XACML等标准表示的策略的库,另外还需要必要时,在本地运用策略时集中管理策略的工具。
如果我们看一下今天的大数据解决方案,比如Ranger和Sentry,没有一个可以满足这样的要求。连面向基于RDBMS的系统的解决方案也往往是专有产品、成本高昂,而且功能不全面。用复杂安全规则做好高度安全工作的企业组织被迫实施这种解决方案。对Hadoop之类的大数据系统而言,数据标记工具仍处于初期阶段。
换句话说,如果厂商能切实拿出方案,这方面面临大好机会。很显然,国防业是第一个客户,因为它已经出于需要而在这么做。随着更多的公司构建中央数据资料库用于大数据分析,对基于策略的安全的需求只会日益增长。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-06-22【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11