京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据存储平台之异构存储实践深度解读
经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。

这就产生了一种热和冷数据,对需要频繁访问的数据我们称之为“热”数据,反之我们称之为”冷”数据,而处于中间的数据我们称之为”温”数据。
在数据被视为公司资产的时代,每个公司基本都会保存最近数年的数据,而这些数据尤其是冷数据的累积也给存储平台带来了甜蜜的负担。下面就来分享下如何解决这些“负担”。
首先如何定义数据为冷热数据呢,eBay公司根据数据年龄和使用频率来定义不失为一种办法,下图为eBay关于数据温度的定义。

从hadoop2.6开始,HDFS更好的支持了这种冷热数据的分离存储,我们可以按HDFS路径指定其存储策略,目前HDFS支持的存储策略有:HOT、WARM、COLD、All_SSD、One_SSD、Lazy_Persist,我们着重介绍SSD相关的存储策略,具体如下:
All_SSD - 用于将所有副本存储在SSD中
One_SSD - 用于将其中一个副本存储在SSD中。剩余的副本存储在DISK中
Lazy_Persist - 用于在内存中写入单个副本的块。该副本首先写入RAM_DISK,然后在DISK中延续
创建文件或目录时,其存储策略未指定。可以使用“hdfs dfsadmin -setStoragePolicy ”命令指定存储策略。文件或目录的有效存储策略由以下规则解决。
如果文件或目录特定于存储策略,则返回。
对于未指定的文件或目录,如果是根目录,则返回默认存储策略。否则,返回其父级的有效存储策略。
我们在实践过程中,因为有一部分实时分析的需求,一部分是历史数据的保存,历史数据很少参与计算,只需偶尔查询会用到。那么对于历史数据来说,我们可以使用一批计算能力较弱,而硬盘较多、容量较大的SATA盘,而实时分析的场景,需要高性能的计算力和硬盘吞吐能力,我们选用SSD硬盘来支撑,此外HDFS还提供了内存存储类型,但我们的内存还是有限,暂未使用到。实际上,我们的每台服务器的12块硬盘slot中有3个是SSD,其余9个是SATA。我们实践结果表明,使用这种策略的效果比以前好了4倍以上。
要使用存储策略,我们需要在在每个数据节点上hdfs-site.xml中参数dfs.datanode.data.dir配置的由逗号分隔的存储位置使用的存储类型进行标记。例如:
使用[DISK]file:///dfs/dn来标识这个存储位置为普通硬盘
使用[SSD]file:/// dfs/dn来标识这个存储位置为SSD硬盘
此外,默认情况下的存储格式为DISK。
下面介绍设置存储策略命令:

总结下:我们可以在一个限定的Hadoop集群中进行设置不同的磁盘使用不同的存储策略,还可以利用API将数据存储到不同的存储层。HDFS设计的详细存储类型和存储策略如下表,有兴趣的同学可以看看:

注:HDFS新加的ARCHIVE存储类型, 它是一种支持PB级的高容量存储但很少的 计算能力,用于归档数据使用,从上图可以看出冷数据适合使用archive存储类型。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16