京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据存储的7个关键因素
大数据的应用为企业的存储带来了挑战。以下是企业应该考虑的最重要的事情。
定义大数据实际上比人们想象的更具挑战性。GLib的定义谈到了大量的非结构化数据,但事实上,它是合并了结构化和结构化的许多数据源,以创建一个可以分析有用信息的存储数据池。
人们可能会问“大数据到底有多大?”,存储营销人员的答案通常是“大,非常大”或者是达到“PB”级。但是,还有很多方法来衡量存储的内容。很多大数据在被分析的几分钟之内就会变成垃圾数据,而有些则需要存储和保留。这使得数据的生命周期管理至关重要。随着数据的全球化,将于2018年5月生效的“欧盟通用数据保护条例”规定了个人数据生命周期管理要求,即使对于欧洲之外公司来说,其违规处罚也是十分严厉的,涉及的企业将会遭到其高达4%的全球年收入的处罚。
对于IT行业人士来说,其存储已经习惯了TB这个术语,但存储PB级的数据成本令人望而生畏,这就像人们当初面临RAID存储阵列的那咱情况。如今的驱动器和存储设备已经改变了所有关于容量成本的规则,特别是在开源软件可以发挥作用的地方。
事实上,今年8月举办的闪存峰会上推出了在1U机架可以部署容量为1PB的设备,随着3DNAND和英特尔公司推出的“Ruler”硬盘驱动器等新技术和新产品的出现,在几个月内可以达到1PB的目标。大数据存储容量将会改变存储的空间、功耗、成本的游戏规则。
集中的容量需要集中的网络带宽。第一步是将这些PB级存储设备与以太网上的NVMe结合起来,以100Gbps的速度运行,但行业厂商已经处于200Gbps部署的初期阶段。这是网络连接能力的一个重大飞跃,但即使如此,也不足以跟上大规模并行设计的驱动器的发展步伐。
数据压缩有助于解决许多大数据存储的使用案例,从删除重复图像到重复的Word文件块。使用GPU进行压缩的新方法可以处理巨大的数据速率,为PB级1U机柜提供一种快速处理的方式。
大数据存储最具价值的部分实际上是软件。非结构化数据通常存储在密钥/数据格式中,在传统的blockIO之上,这是一个试图掩盖多个不匹配的低效方法。较新的设计范围从对象的扩展元数据标记到以驱动器或存储设备上的开放式密钥/数据格式存储数据。这些都是一些处在萌芽状态的方法,但其价值主张似乎很明确。
最后,公共云为大数据提供了一个可扩展到庞大规模的具有弹性的平台。这显然有助于满足企业需求,AWS,Azure和Google都添加了强大的大数据服务列表来匹配。借助巨大的实例和GPU支持,云计算虚拟机可以有效地模拟内部服务器场,并为混合云或基于公共云的解决方案提供引人注目的案例。
可以说,企业在制定大数据存储计划时需要考虑很多事情。以下更详细地了解一下其中的一些因素。
(1)确定大数据存储需求
一旦创建了大数据存储的要求,就要考虑减少大数据的方式。大部分数据在一两天后都是垃圾数据,这取决于积极的报废协议。有些数据是具有价值的,所以这些数据应该存储和加密、备份,以及存档。
随着需求日益增长,公共云非常适合存储短期数据,特别是在突发情况下。存储桶能够以更低成本进行创建和删除,而且扩大规模并不是问题。
最后,大数据有时并没有那么大。对于使用10TB结构化数据的用户来说,100TB似乎很大,但是它很容易适合于最小的Ceph集群。而如今存储100TB的数据,这对于一些解决方案来说非常简单。
(2)对象存储的作用
大数据常常与对象存储混淆,因为对象存储可以轻松地处理奇怪的对象,并提供允许对数据进行巨大控制的元数据结构。而且对象存储的成本比传统的RAID存储阵列要低得多。事实上,最常见的对象存储使用开源软件和COTS(商用现成品或技术)硬件。也可以使用没有捆绑许可的软件。
对象存储设备配有6到12个驱动器,服务器主板和快速网络,而且越来越多的网络将采用基于RDMA的100GbE或200GbE网卡。即便如此,硬盘驱动器的速度变得如此之快,以至于这些网络速率仍然难以跟上。现在人们处在对象存储的NVMe以太网连接的边缘,这将带来延迟和吞吐量的飞跃。
还有开源的全球文件系统,这些系统已经在金融系统和高性能计算中使用了很多年。这些处理需要一定的规模,但没有扩展的元数据和其他灵活的扩展。
(3)生命周期管理
从大数据存储池获取数据是一个比设置池本身更大的挑战。在企业的存储软件中构建报废标签是管理它的一种方法:策略在数据对象创建时设置自毁标签值。然而,制定策略需要时间,而且在处理选项增加到包括将数据移动到云中成本非常低廉的归档层时,情况会变得更加复杂。大数据的数据流模型,特别是物联网产生的大数据,往往在存储营销信息图中被描述成“许多支流汇合在一起的一条大河”。然而,从存储的角度来看,所有这些组合起来并不是真正的传感器数据(IoT生成的典型内容)可能会被分解为时间戳,以便后期处理,而结构化数据库条目可以直接存储在主数据库中,它有自己的分层冷数据工具。
更复杂的是,人们知道一些大数据比其他数据更为活跃。这种活跃的数据可能需要存储到更快速的存储设备中,例如SSD固态硬盘。
(4)数据隐私法规
通用数据保护规范(GDPR)将要实施。企业在处理欧盟个人数据的过程中如果违反法规,则可能会面临其全球收入的4%的严厉处罚,这个法规适用于全球范围的企业。
通用数据保护规范(GDPR)最终处理的是关键和个人数据的常识。每个人都应该正确地加密数据。其规则涵盖数据治理,生命周期管理,访问和使用以及加密。
在了解存储供应商是否符合GDRP标准之后,人们可能会松一口气,认为可能与自己无关。但这些规则涉及到数据所有者以及任何数据存储的重大范式转变,如果企业还没有经历这个调整过程,那么很可能就不符合法规。
人们一个常见的误解是,供应商提供的加密措施可以解决企业的合规性要求。其实无论是由存储厂商还是云服务提供商所提供的基于驱动器的加密都不适用于任何数据标准,如HIPAA,SOX或GDPR。企业作为数据所有者必须拥有密钥。幸运的是,云端有加密支持,但更好的选择是将其构建到服务器或虚拟机中的工作流中。
(5)SSD固态硬盘
SSD固态硬盘正在改变存储系统中的所有规则。作为处于DRAM和硬盘存储器之间的具有高速缓存的大容量存储设备,SSD硬盘在随机IO中的存储性能提高了约1000倍,带宽从10倍增加到100倍。对于大量数据来说,这是非常重要的,特别是在使用Hadoop或GPU加速等并行处理时。
容量为100TB的固态硬盘将会推出市场,并具有优异的性能,一些小型存储设备可以创造奇迹。规模最小的Ceph对象存储阵列为四个节点,即使使用标准的1U服务器格式,当前也可以容纳1.2PB的SSD硬盘容量。这样做成本高昂,但在计算性能时比较经济。一些供应商已经宣布了1UPB级设备的计划,其中包括使用32个英特尔公司推出的Ruler硬盘,这是一款狭长的的SSD硬盘。
固态存储领域得到快速发展,这也是企业不应该在短期内在存储方面投入太多费用的原因。因为硬盘价格点和所有其他指标在未来两年内都会发生变化。企业需要确保将来购买的任何设备和驱动器都适合集群,以便其他有用的设备不会被废弃。
(6)数据压缩
如今,存储1PB数据的设备可以存储5PB数据,而这是使用压缩软件的好处。固态硬盘支持大带宽,以至于使用其中的一些将压缩数据写入设备是有意义的。不过,最好是在数据创建时进行压缩。这减少了整个数据流量的网络流量,节省了存储空间,并减少了传输时间。但源数据压缩需要硬件支持,而这些硬盘开始出现在市场上。
"Rehydrating"(重新水化)数据是一个使用少量资源的简单过程,因此通过提高压缩率来增加存储容量可以节省成本。全闪存阵列通常包括压缩,而这种技术也作为用于家电的软件提供。
(7)选择云存储服务
在讨论硬件之后,采用云存储提供商提供的服务可能是一个具有吸引力的选择。事实上,云服务提供商三大巨头亚马逊、谷歌和微软公司在实施新架构和软件编排方面都处于行业领先地位。云计算的应用很经济,并且可以随时需要的规模支付费用。云服务可以处理存储负载峰值,这在一些数据类中很常见,例如零售传感器数据。这减少或至少延迟了仓储设备的内部购买。
然而,获得与内部运营相媲美的性能水平是一个挑战。并不是具有相同CPU和内存组合的实例都是相同的。一个高度调优的内部集群可能会做得更好。
如今,存储技术的发展并不会停止,人们将看到增值数据存储服务迅速发展,如加密和压缩、索引、标签服务以及其他功能。大型云提供商(尤其是AWS)甚至将数据库结构(如Hadoop文件系统)构建到工具包中。这使他们能够部署类似希捷和华为设备的关键/数据存储驱动器等设备中,以加速构建特定的数据结构。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27