京公网安备 11010802034615号
经营许可证编号:京B2-20210330
达梦“模块化数据中心”筑梦大数据时代_数据分析师
模块化数据中心已经成为解决当今企业所面临的不断增长的数据处理需求的一种普遍的解决方案,越来越多的政府单位、企业正在考虑借助模块化数据中心的诸多优势和其独特的能力,以满足各方面的数据处理需求。
PB级大数据带来的挑战
互联网时代,尤其是社交网络、电子商务、移动通信等把人类带入一个以“PB”为单位的结构与非结构数据信息的新时代。那么PB级数据是什么概念?一提到数据量级,人们通常会联想到美国国会图书馆。麦肯锡首席分析师Michael Chui指出,美国国会图书馆“在2011年4月前已经收集了235TB的数据,而一个PB相当于它的4倍。”
未来10年之内人均,实时消费数据将达到PB级,是目前数据消费TB级的1000倍,如此大的数据处理需求将给现有的以计算为中心的传统数据中心带来一系列巨大挑战,包括实时数据处理、按需动态资源分配及调整、大规模系统运行的能效等诸多方面。从业务层面来看,亟需解决软硬件资源统一管理、按需分配、合理调度,信息资源的共享交换、池化管理,形成一套“合规”的资源服务池,并从该池中按需获取所需资源或服务。
“以数据为中心”的新型数据中心
在这种情况下,传统的数据中心必然需要转型,向以数据为中心的方向发展,能够灵活地将任务调度到数据位置较近的处理单元。传统数据中心的设计目标是能够持续工作,设计者们要求所设计的产品能够用几百年不损坏、保持正常工作。设计者心目中的数据中心是一大堆物理设备孤立的堆砌;事实上,建立传统数据中心最初的动机,就是管理好日益增多的物理设备,保持良好的环境,不要损坏和丢失,出了故障有人维修。并且传统的数据中心资源孤立、且不能实现在整个数据中心的实时、动态调度,这也是传统数据中心资源利用效率低下的根本原因。
随着数据中心的发展,传统数据中心的问题逐渐显露。达梦数据中心在充分吸收传统数据中心的问题基础上,推出了“以数据为中心”的新型数据中心理念。从逻辑上看,达梦的新型数据中心提供一个全局的资源目录,包含了各种应用系统的所有数据,构成了一个全局统一的逻辑数据库。当用户向这个虚拟的逻辑数据库发起数据访问请求时,它首先通过检索全局资源目录,回答该数据是否存在,然后从资源目录信息中获取其位置信息,如果该数据从物理位置上是存放在本地,则从本地物理库中获取,否则根据资源目录信息中获取的远程位置信息,通过统一的远程数据访问接口来获取实际数据。
由此可见,达梦的新型数据中心相当于是一个庞大的全局化逻辑库,可以根据业务的需要,采用某种算法。而实际的物理库中只会存放那些使用频率相对较多的数据,这样既可以节约存储资源,也能减少数据集中后所带来的数据更新的代价。同时根据数据的访问热度,可实现对物理库中数据的动态存储管理,将最常使用的数据放到速度最快的内存当中,次之的数据放到固态盘,一般的数据放到磁盘,较长时间不用的数据则移到外部磁盘磁带中,而长期无人使用的数据会被清除以腾出空间。
模块化实现高效部署
物联网、互联网等信息技术的快速发展带来了数据爆炸式增长,为了适应大数据的发展趋势,数据中心不断扩大规模、提升性能,以支持越来越复杂的海量数据管理需求。
出于性能的考虑,一般对于经常要使用的数据、以及分析应用所需要的数据,要从远程数据源中将数据抽取、交换到数据中心的目标数据库进行集中处理。数据集中带来处理方便、性能提升等好处的同时,也带来了数据一致性的问题。如何以较小的代价、最快的速度将数据源中发生变化的数据传递到数据中心目标数据库中进行更新,以保持两边数据的一致,已成为数据中心建设必须要考虑的问题。而达梦突破传统解决之道,采取“模块化”的数据中心建设思想,不仅实现数据同步、还实现了显著的性能优化。
首先,在数据交换层面,传统的数据交换采用时间戳、触发器、MD5等方式来捕获增量数据,使数据源的数据库产生较大负载,延时也比较大。当数据量很大,同步时间要求很短的时候,传统方案难以同时满足处理性能和数据一致性的要求。达梦的模块化数据中心则采用读取数据源的数据库运行日志文件的方法,从中分析出数据变化的情况,通过监控日志文件的变化,能近乎实时地捕获到数据变化,值得一提的是,这只占用的非常少量的操作系统监控和读取文件资源,对被监控的数据库实例的运行基本没有影响。
其次,在数据中心建设方面,传统的数据中心建设周期非常长,而达梦模块化数据中心在现场部署的速度非常高效,主要是因为模块化的数据分类预制,从数据处理的全生命周期这个角度来说,它主要分为数据采集抽取、数据整合管理、面向业务的数据服务、多样化数据应用等四个方面,各自拥有统一接口、统一标准、统一顶层设计的模块化产品,这些以达梦数据库产品为核心的产品集合,为模块化数据中心的快速部署奠定了坚实基础。我们沿着数据管理生命周期的顺序,通过了解模块化数据中心内部的管理机制,可发现达梦新型数据中心优于传统数据中心的特色亮点:
数据交换:从其他业务系统采集数据、访问数据时,数据交换平台可针对交换频繁、数据量极大的自动采集需求,使用达梦异构数据实时同步工具处理“海量密集,实时异构”的采集需求。而针对交换频度较低,但有一定清洗转换要求的自动采集需求,使用ETL工具定时处理“定期采集,清洗转换”的采集需求。针对涉密敏感、不允许直接交换的数据,使用请求服务引擎实现“按需访问,数据自治”的查询比对需求。
数据管理:在数据交换、采集完成后,需要对数据进行整合和梳理,数据管理平台可实现该类需求。对于整合来的各类项目数据资源,针对多种采集渠道、承载方式,数据资源管理平台均采用一致的方式进行可视化管理和维护,将碎片离散的信息整体呈现。同时,针对各类信息资源的业务属性描述、来源信息等内容,通过元数据管理进行统一描述、统一归集、统一管理,使信息资源的重用成为可能。针对数据归集过程中,数据不一致、不准确的情况,主要基于质量管理平台进行质量管理和提升,基于质量规则,发现各类数据质量问题,给出质量整改门户,推进数据整合的质量提升。针对数据整合后的梳理和编目需求,主要依靠数据资源目录系统,按照业务属性、提供单位、系统类型等因素进行编目梳理,使数据能够被成功访问和重用。针对所涉及的大量原始非结构数据,则是通过文档管理系统进行统一管理,可以有效节约存储空间,提供全文检索等增值能力。
数据分析:数据整合后进行服务发布运用的过程,主要基于数据分析服务平台来实现。针对数据整合建立数据仓库、联机分析的需求,主要采用BI分析平台来实现数据仓库建设、联机分析设计、联机分析呈现等功能。
数据呈现:针对数据选择性呈现需求,基于数据门户可实现数据的组合及筛选处理,完成数据面向不同人员、不同环节、不同方式的选择性呈现能力。
而数据服务平台,则提供基于已整合数据的非可视化(API,REST,WEBSERVICE)数据服务接口,来满足数据的横向比对、纵向比对、跨业务系统的对接需求。针对数据中心及业务系统运转的情况的可视化需求(如系统承载能力、访问状况、异常信息等),主要使用运维监控系统,通过监控门户、仪表盘、驾驶舱进行多角度可视化呈现。针对管数据的可视化呈现需求,基于数据展现应用提供基于已整合数据的可视化组件设计及呈现。
结语
在大数据时代,达梦数据库坚持创新发展的技术路线,业界率先推行新型模块化数据中心建设理念,以数据流为主线,实现从大数据存储、数据交换、数据管理、数据分析到数据应用的全生命周期管理,并结合多年的项目建设与实践经验,致力于为更多政府机关、各行业领域单位提供大数据平台咨询与技术服务,作为国产数据库品牌的中坚力量、领军企业,为国产信息化建设贡献力量!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01