京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代如何构建高性能数据库平台
在数据爆炸的时代,给众多IT从业人员带来了相当大的困扰—伴随着大数据分析,商业智能的发展,数据量呈现指数增长,传统数据处理系统已不堪重负。在这样的背景下,“数据库平台的构建”逐渐成为一个备受关注的话题。
影响数据库性能的三要素
对于数据库系统而言,绝大多数情况下影响数据库性能的三个要素是:数据运算能力、数据读写时延和数据吞吐带宽,简称计算、时延、吞吐。计算指的是CPU的运算能力,时延是数据从存储介质跑到CPU所需的时间长短,吞吐则是数据从存储介质到CPU的道路宽度。一般情况下,关注计算和时延是比较多的,但是在数据量越来越多的情况下,吞吐也成为影响数据库性能的重要因素。如果吞吐带宽不够,会造成计算等待队列的增加,CPU占用率虚高不下。这种情况下,即使增加再多的计算资源也于事无补,相当于千军万马挤独木桥,马再好也是枉然。一个高性能的数据库平台,一定是计算、时延、吞吐三方面的能力齐头并进,相互匹配。
计算能力由CPU主频和核数决定,实践中看CPU占用率就能够大致确定CPU配置是否合适。时延的指标很简单,时间是衡量时延的唯一指标。吞吐量则是通过每秒在I/O流中传输的数据总量来衡量的。
从三要素到三方法
明确了影响性能的要素后,就可以着手改变各要素来提升数据库平台的性能。
1.计算能力:x86化的今天,提升计算能力就是:增加CPU内核数量或升级CPU主频。
2.时延能力:加快数据从存储介质到CPU的速度,即提升数据读写时延,从以下三方面努力:
a)降低存储介质的读写时延:使用电子寻址的Flash颗粒来替换旋转的机械磁头,是降低存储介质读写时延最有效的方法。实践中可结合数据吞吐量来确定是选择SAS总线上的SSD盘还是选择PCIE总线上的Flash卡。
b)降低网络的传送时延:网络时延则可以通过InfiniBand网络来解决,注意不要选择IPoIB,而是要使用RDS,相比传统UDP协议,网络延迟至少减一半。通过SRP协议,利用RDMA技术在网络层面传送SCSI指令和数据,使得数据库节点能够像操作本地SCSI设备一样读写远程的数据,对于时延的降低,不是FC网络能够企及的。
c)扩大存储层的数据缓存大小:存储层的数据缓存大小对时延也至关重要,如果有尽可能多的数据读写在缓存中进行,就避免了数据下盘。缓存的大小以及缓存算法都对缓存命中率有直接的影响,这一点往往被忽略。除了单点缓存之外,分布式缓存技术也是非常重要的,通过分布式缓存技术,可以避免单点缓存的局限性,扩大缓存的全局能力,增加缓存规模,提高缓存命中率。
3.吞吐能力:拓宽数据通路的方法有两种:使用高速InfiniBand网络、使用分布式存储。前者比较容易想到,实施也简单,基于FDR 的56Gb/s InfiniBand解决方案可实现每秒1.37亿条消息的信息通信速率,在16个计算节点上,性能表现比QDR 40Gb/s InfiniBand高出20%-30%,而与FC、万兆和4万兆以太网相比,性能更是领先了100%到300%,是最高效的计算和存储互联方案。对于后者,分布式存储,其好处在于不将数据集中存放在某几块存储介质上,而是将数据全部打散存放在多个存储节点的许多个介质上,这样避免在大规模数据并发读写访问时,存储介质的单点能力成为数据读写的瓶颈,通过分布式的并发能力来提升数据读写吞吐能力。注意的是,一定要使用高性能低时延的分布式块存储,分布式文件存储是无法满足性能要求的。
通过计算、时延、吞吐的三管齐下,通过使用SSD存储介质、InfiniBand网络交换以及分布式存储,数据库平台的性能将得到极大提升。
未来为是何种模样
高性能数据库系统未来向着内存化、云化的方向在不断发展。SAP的HANA内存数据库,Oracle 12c的内存特性,GemFire的分布式内存数据缓存,以及Spark的内存并行计算,都在昭示着内存化的未来方向,其本质还是通过内存的高速读写与高速总线来解决时延和吞吐问题。
数据库的云化,即DBaaS(数据库即服务),其核心就是整合IT基础设施中的硬软件,实现简单化、标准化和灵活性,提升可用性以及安全保障,同时降低成本。当然,云化在性能和QoS方面也对IT基础设施提出了更多增强性的挑战。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12在CDA(Certified Data Analyst)数据分析师的日常工作中,“挖掘变量间的关联关系”是高频核心需求——比如判断“用户停留时长 ...
2026-01-12在存量竞争时代,用户流失率直接影响企业的营收与市场竞争力。无论是电商、互联网服务还是金融行业,提前精准预测潜在流失用户, ...
2026-01-09在量化投资领域,多因子选股是主流的选股策略之一——其核心逻辑是通过挖掘影响股票未来收益的各类因子(如估值、成长、盈利、流 ...
2026-01-09在CDA(Certified Data Analyst)数据分析师的工作场景中,分类型变量的关联分析是高频需求——例如“用户性别与商品偏好是否相 ...
2026-01-09数据库中的历史数据,是企业运营过程中沉淀的核心资产——包含用户行为轨迹、业务交易记录、产品迭代日志、市场活动效果等多维度 ...
2026-01-08在电商行业竞争日趋激烈的当下,数据已成为驱动业务增长的核心引擎。电商公司的数据分析师,不仅是数据的“解读官”,更是业务的 ...
2026-01-08在数据驱动决策的链路中,统计制图是CDA(Certified Data Analyst)数据分析师将抽象数据转化为直观洞察的关键载体。不同于普通 ...
2026-01-08在主成分分析(PCA)的学习与实践中,“主成分载荷矩阵”和“成分矩阵”是两个高频出现但极易混淆的核心概念。两者均是主成分分 ...
2026-01-07在教学管理、学生成绩分析场景中,成绩分布图是直观呈现成绩分布规律的核心工具——通过图表能快速看出成绩集中区间、高分/低分 ...
2026-01-07在数据分析师的工作闭环中,数据探索与统计分析是连接原始数据与业务洞察的关键环节。CDA(Certified Data Analyst)作为具备专 ...
2026-01-07在数据处理与可视化场景中,将Python分析后的结果导出为Excel文件是高频需求。而通过设置单元格颜色,能让Excel中的数据更具层次 ...
2026-01-06在企业运营、业务监控、数据分析等场景中,指标波动是常态——无论是日营收的突然下滑、用户活跃度的骤升,还是产品故障率的异常 ...
2026-01-06