京公网安备 11010802034615号
经营许可证编号:京B2-20210330
使用大数据闪存打造融合数据平台
随着企业、服务提供商和超大型数据中心从描述性分析向预测性和规范性分析演进,结合了融合运营和分析数据管道的融合数据平台变得日益重要。大数据闪存可让数据处理平台快速访问历史数据和实时数据流,从而以较低成本创建有效的预测模型。
随着大数据从描述性分析(批量)向预测性(交互)和规范性(实时)分析演进,企业正在越来越多地使用串流数据源和历史批量数据,以提高机器的学习能力并建立预测模型。简而言之,描述性分析是为了了解事态,预测性分析是为了建立一个假设场景模型,而规范性分析是为了通过采取数据驱动型行动来影响结果。新型分析应用能够在交易发生时实时捕获它,并能影响其结果,从而带来直接的商业效益。这方面的用例包括:
反洗钱
欺诈分析
定向营销
工业互联网(IoT/IoE)
实时生产制造
医疗领域的患者数据情报
SanDisk闪迪利用新型分析应用对半导体制造数据进行实时分析。
从Lambda架构到SMACK
Lambda架构因其融合实时分析和批量分析的能力而深受喜爱。Lambda架构使用HDFS、Scalding和HBASE作为融合实时分析和批量数据管道的构建模块。但是,该架构带来的多管道复制代码和数据的开销,使得其难以大规模部署。
为了克服Lambda架构的局限性,必需配备一个能够有效处理批量和实时串流的大数据管道。全新的SMACK堆栈——Scala及其Spark、Mesos、Akka、Cassandra和Kafka生态系统便旨在实现这一点。SMACK串流已成为一个用于处理批量和串流数据的有效大型平台。
Meosphere的Infinity堆栈或MapR新近发布的Converged Data Platform等解决方案都是Lambda架构的实例。
配备SMACK(Spark、Mesos、Akka、Cassandra和Kafka)堆栈的串流架构
以下是SMARK堆栈的简要介绍:
Spark:一个快速、通用的分布式大型数据处理引擎。
Mesos:一个集群资源管理系统,在各个分布式应用之间提供高效的资源隔离和共享功能。
Akka:一个工具包和运行环境,用于在JVM上创建高并发、分布式、弹性消息驱动型应用。
Cassandra:一个分布式、高度可用的数据库,旨在处理多个数据中心的大量数据。
Kafka:一个高吞吐量、低时延的分布式消息系统,旨在处理实时数据流。
面向融合数据平台的大数据闪存
为了创建有效的预测模型,融合堆栈系统需要快速访问历史数据和实时数据流。基于闪存的数据网格可为这些新的数据驱动型架构带来巨大效益。
2015年3月,SanDisk闪迪设立了 “大数据闪存”市场类别,推出了InfiniFlash系统,它拥有极高的容量以及卓越的性能和经济性(源于低成本晶圆和全新的闪存尺寸规格)。
事实上,InfiniFlash系统之所以能成为融合数据平台架构的构建模块,其架构和性能起着至关重要的作用:
数据捕获
每秒可捕获数百万个事件,且无事件丢失
更快的批量摄取
便于扩展
使用Avro或Protobuf格式存储数据,无需ETL(提取、转换、加载)过程
通过支持Kafka等分布式消息系统消除负载
数据处理
能够有效处理实时事件和批量数据
输入存储处理,以秒和亚秒级实现时延交付
数据存储
面向数据密集型工作负载的软件定义数据构造,提供敏捷性和可扩展性
可长时间存储数个TB的数据
支持高吞吐量的批量数据存储,且满足低时延实时查询
可处理分离的数据源和“突发性”工作负载
采用无模式方式存储数据
支持HDFS和NoSQL数据库(如Cassandra、CouchDB、MemSQL、HBase等)
可借助Rackscale架构扩展至PB级
极低的年故障率(AFR)
可使用解聚/共享存储提供企业就绪度、沿袭(审计日志)、合规(依法保留等)和版本控制(维护不同的时间点副本)
专为来自HDFS/S3的故障、备份和补丁而设计
最为经济高效,低于/GB[1]
数据查询
支持亚秒级时延的实时查询
支持批量/聚集查询
支持针对HDFS和NoSQL的查询
使用InfiniFlash“大数据闪存”打造数据密集型融合数据平台的三大原因
无论您是企业还是服务提供商,以下是您应该考虑使用InfiniFlash打造融合数据平台的三大原因:
1.满足捕获、处理、存储和查询数据管道的所有要求
传统的直接附加型存储解决方案和纯HDD解决方案无法提供融合数据平台所需的大规模性能和吞吐量。此外,它们也不具备可扩展性所带来的资本支出和运营支出效益,也不具备这些平台所要求的敏捷性和企业就绪程度。
与传统硬盘相比,InfiniFlash系统的性能是它们的50倍,密度是它们的5倍,可靠性是它们的4倍,而且便于向上和向外扩展,以满足大数据应用的苛刻要求[2]。基于闪存的软件定义数据构造可让用户根据需要灵活选用多种文件系统,其中包括HDFS、Spectrum Scale、Lustre和Ceph。
2.全球支持
InfiniFlash在全球各地得到了SanDisk闪迪及其合作伙伴的支持。InfiniFlash是TSA Net Support Community的一部分,可确保满足严格的SLA协议要求。与此同时,我们的FlashStart™功能可确保其安装顺利,并提供卓越的客户体验。
3.同类最佳的生态系统
SanDisk闪迪与众多业内领先的软件开发者和硬件合作伙伴开展合作,通过同类最佳的生态系统获得更多的选择和灵活性。我们的合作伙伴包括: RedhatCeph、Nexenta、ICloudbyte以及思科、联想、戴尔、Supermicro、Quanta等厂商。同时,我们也正与开源社区开展密切合作,并通过我们的各项事业成为贡献者和思想领袖。(欲了解SanDisk闪迪对于开源SCST企业级特性所做出的贡献,请点击此处。)
结语
搭建融合数据平台是为了满足融合运营和分析管道的要求,以及随后的捕获、处理、存储和查询阶段的存储要求,一个基于大数据闪存的数据构造是融合平台理想的存储层构建模块,可让数据管道的每个阶段都受益。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28