京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据存储的7个关键因素
大数据的应用为企业的存储带来了挑战。以下是企业应该考虑的最重要的事情。
定义大数据实际上比人们想象的更具挑战性。GLib的定义谈到了大量的非结构化数据,但事实上,它是合并了结构化和结构化的许多数据源,以创建一个可以分析有用信息的存储数据池。
人们可能会问“大数据到底有多大?”,存储营销人员的答案通常是“大,非常大”或者是达到“PB”级。但是,还有很多方法来衡量存储的内容。很多大数据在被分析的几分钟之内就会变成垃圾数据,而有些则需要存储和保留。这使得数据的生命周期管理至关重要。随着数据的全球化,将于2018年5月生效的“欧盟通用数据保护条例”规定了个人数据生命周期管理要求,即使对于欧洲之外公司来说,其违规处罚也是十分严厉的,涉及的企业将会遭到其高达4%的全球年收入的处罚。
对于IT行业人士来说,其存储已经习惯了TB这个术语,但存储PB级的数据成本令人望而生畏,这就像人们当初面临RAID存储阵列的那咱情况。如今的驱动器和存储设备已经改变了所有关于容量成本的规则,特别是在开源软件可以发挥作用的地方。
事实上,今年8月举办的闪存峰会上推出了在1U机架可以部署容量为1PB的设备,随着3DNAND和英特尔公司推出的“Ruler”硬盘驱动器等新技术和新产品的出现,在几个月内可以达到1PB的目标。大数据存储容量将会改变存储的空间、功耗、成本的游戏规则。
集中的容量需要集中的网络带宽。第一步是将这些PB级存储设备与以太网上的NVMe结合起来,以100Gbps的速度运行,但行业厂商已经处于200Gbps部署的初期阶段。这是网络连接能力的一个重大飞跃,但即使如此,也不足以跟上大规模并行设计的驱动器的发展步伐。
数据压缩有助于解决许多大数据存储的使用案例,从删除重复图像到重复的Word文件块。使用GPU进行压缩的新方法可以处理巨大的数据速率,为PB级1U机柜提供一种快速处理的方式。
大数据存储最具价值的部分实际上是软件。非结构化数据通常存储在密钥/数据格式中,在传统的blockIO之上,这是一个试图掩盖多个不匹配的低效方法。较新的设计范围从对象的扩展元数据标记到以驱动器或存储设备上的开放式密钥/数据格式存储数据。这些都是一些处在萌芽状态的方法,但其价值主张似乎很明确。
最后,公共云为大数据提供了一个可扩展到庞大规模的具有弹性的平台。这显然有助于满足企业需求,AWS,Azure和Google都添加了强大的大数据服务列表来匹配。借助巨大的实例和GPU支持,云计算虚拟机可以有效地模拟内部服务器场,并为混合云或基于公共云的解决方案提供引人注目的案例。
可以说,企业在制定大数据存储计划时需要考虑很多事情。以下更详细地了解一下其中的一些因素。
(1)确定大数据存储需求
一旦创建了大数据存储的要求,就要考虑减少大数据的方式。大部分数据在一两天后都是垃圾数据,这取决于积极的报废协议。有些数据是具有价值的,所以这些数据应该存储和加密、备份,以及存档。
随着需求日益增长,公共云非常适合存储短期数据,特别是在突发情况下。存储桶能够以更低成本进行创建和删除,而且扩大规模并不是问题。
最后,大数据有时并没有那么大。对于使用10TB结构化数据的用户来说,100TB似乎很大,但是它很容易适合于最小的Ceph集群。而如今存储100TB的数据,这对于一些解决方案来说非常简单。
(2)对象存储的作用
大数据常常与对象存储混淆,因为对象存储可以轻松地处理奇怪的对象,并提供允许对数据进行巨大控制的元数据结构。而且对象存储的成本比传统的RAID存储阵列要低得多。事实上,最常见的对象存储使用开源软件和COTS(商用现成品或技术)硬件。也可以使用没有捆绑许可的软件。
对象存储设备配有6到12个驱动器,服务器主板和快速网络,而且越来越多的网络将采用基于RDMA的100GbE或200GbE网卡。即便如此,硬盘驱动器的速度变得如此之快,以至于这些网络速率仍然难以跟上。现在人们处在对象存储的NVMe以太网连接的边缘,这将带来延迟和吞吐量的飞跃。
还有开源的全球文件系统,这些系统已经在金融系统和高性能计算中使用了很多年。这些处理需要一定的规模,但没有扩展的元数据和其他灵活的扩展。
(3)生命周期管理
从大数据存储池获取数据是一个比设置池本身更大的挑战。在企业的存储软件中构建报废标签是管理它的一种方法:策略在数据对象创建时设置自毁标签值。然而,制定策略需要时间,而且在处理选项增加到包括将数据移动到云中成本非常低廉的归档层时,情况会变得更加复杂。大数据的数据流模型,特别是物联网产生的大数据,往往在存储营销信息图中被描述成“许多支流汇合在一起的一条大河”。然而,从存储的角度来看,所有这些组合起来并不是真正的传感器数据(IoT生成的典型内容)可能会被分解为时间戳,以便后期处理,而结构化数据库条目可以直接存储在主数据库中,它有自己的分层冷数据工具。
更复杂的是,人们知道一些大数据比其他数据更为活跃。这种活跃的数据可能需要存储到更快速的存储设备中,例如SSD固态硬盘。
(4)数据隐私法规
通用数据保护规范(GDPR)将要实施。企业在处理欧盟个人数据的过程中如果违反法规,则可能会面临其全球收入的4%的严厉处罚,这个法规适用于全球范围的企业。
通用数据保护规范(GDPR)最终处理的是关键和个人数据的常识。每个人都应该正确地加密数据。其规则涵盖数据治理,生命周期管理,访问和使用以及加密。
在了解存储供应商是否符合GDRP标准之后,人们可能会松一口气,认为可能与自己无关。但这些规则涉及到数据所有者以及任何数据存储的重大范式转变,如果企业还没有经历这个调整过程,那么很可能就不符合法规。
人们一个常见的误解是,供应商提供的加密措施可以解决企业的合规性要求。其实无论是由存储厂商还是云服务提供商所提供的基于驱动器的加密都不适用于任何数据标准,如HIPAA,SOX或GDPR。企业作为数据所有者必须拥有密钥。幸运的是,云端有加密支持,但更好的选择是将其构建到服务器或虚拟机中的工作流中。
(5)SSD固态硬盘
SSD固态硬盘正在改变存储系统中的所有规则。作为处于DRAM和硬盘存储器之间的具有高速缓存的大容量存储设备,SSD硬盘在随机IO中的存储性能提高了约1000倍,带宽从10倍增加到100倍。对于大量数据来说,这是非常重要的,特别是在使用Hadoop或GPU加速等并行处理时。
容量为100TB的固态硬盘将会推出市场,并具有优异的性能,一些小型存储设备可以创造奇迹。规模最小的Ceph对象存储阵列为四个节点,即使使用标准的1U服务器格式,当前也可以容纳1.2PB的SSD硬盘容量。这样做成本高昂,但在计算性能时比较经济。一些供应商已经宣布了1UPB级设备的计划,其中包括使用32个英特尔公司推出的Ruler硬盘,这是一款狭长的的SSD硬盘。
固态存储领域得到快速发展,这也是企业不应该在短期内在存储方面投入太多费用的原因。因为硬盘价格点和所有其他指标在未来两年内都会发生变化。企业需要确保将来购买的任何设备和驱动器都适合集群,以便其他有用的设备不会被废弃。
(6)数据压缩
如今,存储1PB数据的设备可以存储5PB数据,而这是使用压缩软件的好处。固态硬盘支持大带宽,以至于使用其中的一些将压缩数据写入设备是有意义的。不过,最好是在数据创建时进行压缩。这减少了整个数据流量的网络流量,节省了存储空间,并减少了传输时间。但源数据压缩需要硬件支持,而这些硬盘开始出现在市场上。
"Rehydrating"(重新水化)数据是一个使用少量资源的简单过程,因此通过提高压缩率来增加存储容量可以节省成本。全闪存阵列通常包括压缩,而这种技术也作为用于家电的软件提供。
(7)选择云存储服务
在讨论硬件之后,采用云存储提供商提供的服务可能是一个具有吸引力的选择。事实上,云服务提供商三大巨头亚马逊、谷歌和微软公司在实施新架构和软件编排方面都处于行业领先地位。云计算的应用很经济,并且可以随时需要的规模支付费用。云服务可以处理存储负载峰值,这在一些数据类中很常见,例如零售传感器数据。这减少或至少延迟了仓储设备的内部购买。
然而,获得与内部运营相媲美的性能水平是一个挑战。并不是具有相同CPU和内存组合的实例都是相同的。一个高度调优的内部集群可能会做得更好。
如今,存储技术的发展并不会停止,人们将看到增值数据存储服务迅速发展,如加密和压缩、索引、标签服务以及其他功能。大型云提供商(尤其是AWS)甚至将数据库结构(如Hadoop文件系统)构建到工具包中。这使他们能够部署类似希捷和华为设备的关键/数据存储驱动器等设备中,以加速构建特定的数据结构。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27