京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据信息安全分析
企业和其他组织一直在充满敌意的信息安全环境中运行,在这个环境中,计算和存储资源成为攻击者使用入侵系统进行恶意攻击的目标。其中,个人机密信息被窃取,然后被放在地下市场出售,而国家支持的攻击导致大量数据泄露。在这种情况下,一个企业需要部署大数据安全性分析工具
来保护有价值的公司资源。
信息安全的很大一部分工作是监控和分析服务器、网络和其他设备上的数据。如今大数据分析方面的进步也已经应用于安防监控中,并且它们可被用于实现更广泛和更深入的分析。它们与传统的信息安全分析存在显著的差异,本文将从两个方面分别介绍大数据安全分析的新的特点,以及企业在选择大数据分析技术时需要考虑的关键因素。
大数据安全分析的特征
在许多方面,大数据安全分析是[安全信息和事件管理security information and event management ,SIEM)及相关技术的延伸。虽然只是在分析的数据量和数据类型方面存在量的差异,但对从安全设备和应用程序提取到的信息类型来说,却导致了质的差异。
大数据安全分析工具通常包括两种功能类别:SIEM,以及性能和可用性监控(PAM)。SIEM工具通常包括日志管理、事件管理和行为分析,以及数据库和应用程序监控。而PAM工具专注于运行管理。然而,大数据分析工具比纯粹地将SIEM和PAM工具放在一起要拥有更多的功能;它们的目的是实时地收集、整合和分析大规模的数据,这需要一些额外的功能。
与SIEM一样,大数据分析工具具有在网络上准确发现设备的能力。在一些情况下,一个配置管理数据库可以补充和提高自动收集到的数据的质量。此外,大数据分析工具还必须能够与LDAP或Active Directory服务器,以及其他的第三方安全工具进行集成。对事件响应工作流程的支持对于SIEM工具可能并不是非常重要,但是当日志和其他来源的安全事件数据的的数据量非常大时,这项功能就必不可少了。
大数据信息安全分析与其他领域的安全分析的区别主要表现在五个主要特征。
主要特性1:可扩展性
大数据分析其中的一个主要特点是可伸缩性。这些平台必须拥有实时或接近实时的数据收集能力。网络流通是一个不间断的数据包流,数据分析的速度必须要和数据获取的速度一样快。 该分析工具不可能让网络流通暂停来赶上积压的需要分析的数据包。
大数据的安全分析不只是用一种无状态的方式检查数据包或进行深度数据包分析,对这个问题的理解是非常重要的。虽然这些都是非常重要和必要的,但是具备跨越时间和空间的事件关联能力是大数据分析平台的关键。这意味着只需要一段很短的时间,一个设备(比如web服务器)上记录的事件流,可以明显地与一个终端用户设备上的事件相对应。
主要特性2:报告和可视化
大数据分析的另一个重要功能是对分析的报告和支持。安全专家早就通过报表工具来支持业务和合规性报告。他们也有通过带预配置安全指标的仪表板来提供关键性能指标的高层次概述。虽然现有的这两种工具是必要的,但不足以满足大数据的需求。
对安全分析师来说,要求可视化工具通过稳定和快速的识别方式将大数据中获得的信息呈现出来。例如,Sqrrl使用可视化技术,能够帮助分析师了解相互连接的数据(如网站,用户和HTTP交易信息)中的复杂关系。
主要特性3:持久的大数据存储
大数据安全分析名字的由来,是因为区别于其他安全工具,它提供了突出的存储和分析能力。大数据安全分析的平台通常采用大数据存储系统,例如Hadoop分布式文件系统(HDFS)和更长的延迟档案储存,以及后端处理,以及一个行之有效的批处理计算模型MapReduce。但是MapReduce并不一定是非常有效的,它需要非常密集的I / O支出。一个流行工具Apache Spark可以作为MapReduce的替代,它是一个更广义的处理模型,相比MapReduce能更有效地利用内存。
大数据分析系统,如MapReduce和Spark,解决了安全分析的计算需求。同时,长时持久存储通常还取决于关系或NoSQL数据库。例如,Splunk Hunk平台支持在Hadoop和NoSQL数据库之上的分析和可视化。该平台位于一个组织的非关系型数据存储与应用环境的其余部分之间。Hunk应用直接集成了数据存储,不需要被转移到二级内存存储。Hunk平台包括用于分析大数据的一系列工具。它支持自定义的仪表板和Hunk应用程序开发,它可以直接构建在一个HDFS环境,以及自适应搜索和可视化工具之上。
大数据安全分析平台的另一个重要特点是智能反馈,在那里建立了漏洞数据库以及安全性博客和其他新闻来源,潜在的有用信息能够被持续更新。大数据安全平台可从多种来源提取数据,能够以它们自定义的数据收集方法复制威胁通知和关联信息。
主要特性4:信息环境
由于安全事件产生这么多的数据,就给分析师和其他信息安全专业人员带来了巨大的风险,限制了他们辨别关键事件的能力。有用的大数据安全分析工具都在特定用户、设备和时间的环境下分析数据。
没有这种背景的数据是没什么用的,并且会导致更高的误报率。背景信息还改善了行为分析和异常检测的质量。背景信息可以包括相对静态的信息,例如一个特定的雇员在特定部门工作。它还可以包括更多的动态信息,例如,可能会随着时间而改变的典型使用模式。例如,周一早晨有大量对数据仓库的访问数据是很正常的,因为管理者需要进行一些临时查询,以便更好地了解周报中描述的事件。
主要特性5:功能广泛性
大数据安全分析的最后一个显著特征是它的功能涵盖了非常广泛的安全领域。当然,大数据分析将收集来自终端设备的数据,可能是通过因特网连接到TCP或IP网络的任何设备,包括笔记本电脑、智能手机或任何物联网设备。除了物理设备和虚拟服务器,大数据安全分析必须加入与软件相关的安全性。例如,脆弱性评估被用于确定在给定的环境中的任何可能的安全漏洞。网络是一个信息和标准的丰富来源,例如Cisco开发的NetFlow网络协议,其可以被用于收集给定网络上的流量信息。
大数据分析平台,也可以使用入侵检测产品分析系统或环境行为,以发现可能的恶意活动。
大数据安全分析与其他形式的安全分析存在质的不同。需要可扩展性,需要集成和可视化不同类型数据的工具,环境信息越来越重要,安全功能的广泛性,其让导致供应商应用先进的数据分析和存储工具到信息安全中。
如何选择合适的大数据安全分析平台
大数据安全分析技术结合了先进的安全事件分析功能和事故管理系统功能(SIEM),适用于很多企业案例,但不是全部。在投资大数据分析平台之前,请考虑公司使用大数据安全系统的组织的能力水平。这里需要考虑几个因素,从需要保护的IT基础设施,到部署更多安全控制的成本和益处。
基础设施规模
拥有大量IT基础设施的组织是大数据安全分析主要候选者。应用程序、操作系统和网络设备都可以捕获到恶意活动的痕迹。单独一种类型的数据不能提供足够的证据来标识活动的威胁,多个数据源的组合可以为一个攻击的状态提供更全面的视角。
现有的基础设施和安全控制生成了原始数据,但是大数据分析应用程序不需要收集、采集和分析所有的信息。在只有几台设备,而且网络结构不是很复杂的环境中,大数据安全分析可能并不是十分必要,在这种情况下,传统的SEIM可能已经足够。
近实时监控
驱动大数据安全分析需求的另一个因素是近实时采集事故信息的必要性。在一些保存着高价值数据、同时又容易遭受到严重攻击的环境中,实时监控尤为重要,如金融服务、医疗保健、政府机构等。
最近Verizon的研究发现,在60%的事件,攻击者能够在几分钟内攻克系统,但几天内检测到漏洞的比例也很低。减少检测时间的一种方法是从整个基础设施中实时地收集多样数据,并立即筛选出与攻击事件有关的数据。这是一个大数据分析的关键用例。
详细历史数据
尽管尽了最大努力,在一段时间内可能检测不到攻击。在这种情况下,能够访问历史日志和其它事件数据是很重要的。只要有足够的数据可用,取证分析可以帮助识别攻击是如何发生的。
在某些情况下,取证分析不需要确定漏洞或纠正安全弱点。例如,如果一个小企业受到攻击,最经济有效的补救措施可能雇安全顾问来评估目前的配置和做法,并提出修改建议。在这种情况下,并不需要大数据安全分析。其他的安全措施就可能很有效,而且价格便宜。
本地vs云基础架构
顾名思义,大数据安全分析需要收集和分析大量各种类型的数据。如捕获网络上的所有流量的能力,对捕获安全事件信息的任何限制,都可能对从大数据安全分析系统获得的信息的质量产生严重影响。这一点在云环境下尤其突出。
云提供商限制网络流量的访问,以减轻网络攻击的风险。例如,云计算客户不能开发网段来收集网络数据包的全面数据。前瞻性的大数据安全分析用户应该考虑云计算供应商是如何施加限制来遏制分析范围的。
有些情况下,大数据安全分析对云基础设施是有用的,但是,特别是云上有关登录生成的数据。例如,亚马逊Web服务提供了性能监控服务,称为CloudWatch的,和云API调用的审计日志,称为CloudTrail。云上的操作数据可能不会和其他数据源的数据一样精细,但它可以补充其他数据源。
利用数据的能力
大数据安全分析摄取和关联了大量数据。即使当数据被概括和聚集的时候,对它的解释也可能是很有挑战性的。从大数据分析产生的信息的质量,部分上讲是分析师解释数据能力的一项指标。当企业与安全事件扯上关系的时候,它们需要那些能够切断攻击链路,以及理解网络流量和操作系统事件的安全分析师。
例如,分析师可能会收到一个数据库服务器上有关可疑活动的警报。这很可能不是一个攻击的第一步。分析师是否可以启动一个警报,并通过导航历史数据找到相关事件来确定它是否确实是一个攻击?如果不能,那么该组织并没有意识到大数据安全分析平台带来的好处。
其他安全控制
企业在投身大数据安全分析之前,需要考虑它们在安全实践方面的整体成熟度。也就是说,其他更便宜和更为简单的控制应该放在第一位。
应该定义、执行和监测清晰的身份和访问管理策略。例如,操作系统和应用程序应该定期修补。在虚拟环境的情况下,机器图像应定期重建,以确保最新的补丁被并入。应该使用警报系统监视可疑事件或显著的环境变化(例如服务器上增加了一个管理员帐户)。应当部署web应用防火墙来减少注入攻击的风险和其他基于应用程序的威胁。
大数据安全分析的好处可能是巨大的,尤其是当部署到已经实现了全面的防御战略的基础设施。
大数据安全分析商业案例
大数据安全分析是一项新的信息安全控制技术。这些系统的主要用途是合并来自于多个来源的数据,并减少手动集成解决方案的需求。同时还解决了其他安全控制存在的不足,例如跨多个数据源查询困难。通过捕获来自于多个来源的数据流,大数据分析系统提高了收集取证重要细节的机会。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-10在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-10在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01