大数据时代如何构建高性能数据库平台-CDA数据分析师官网

热线电话：13121318867

大数据时代如何构建高性能数据库平台

2015-11-01

大数据时代如何构建高性能数据库平台

在数据爆炸的时代，给众多IT从业人员带来了相当大的困扰—伴随着大数据分析，商业智能的发展，数据量呈现指数增长，传统数据处理系统已不堪重负。在这样的背景下，“数据库平台的构建”逐渐成为一个备受关注的话题。

影响数据库性能的三要素

对于数据库系统而言，绝大多数情况下影响数据库性能的三个要素是：数据运算能力、数据读写时延和数据吞吐带宽，简称计算、时延、吞吐。计算指的是CPU的运算能力，时延是数据从存储介质跑到CPU所需的时间长短，吞吐则是数据从存储介质到CPU的道路宽度。一般情况下，关注计算和时延是比较多的，但是在数据量越来越多的情况下，吞吐也成为影响数据库性能的重要因素。如果吞吐带宽不够，会造成计算等待队列的增加，CPU占用率虚高不下。这种情况下，即使增加再多的计算资源也于事无补，相当于千军万马挤独木桥，马再好也是枉然。一个高性能的数据库平台，一定是计算、时延、吞吐三方面的能力齐头并进，相互匹配。

计算能力由CPU主频和核数决定，实践中看CPU占用率就能够大致确定CPU配置是否合适。时延的指标很简单，时间是衡量时延的唯一指标。吞吐量则是通过每秒在I/O流中传输的数据总量来衡量的。

从三要素到三方法

明确了影响性能的要素后，就可以着手改变各要素来提升数据库平台的性能。

1.计算能力：x86化的今天，提升计算能力就是：增加CPU内核数量或升级CPU主频。

2.时延能力：加快数据从存储介质到CPU的速度，即提升数据读写时延，从以下三方面努力：

a)降低存储介质的读写时延：使用电子寻址的Flash颗粒来替换旋转的机械磁头，是降低存储介质读写时延最有效的方法。实践中可结合数据吞吐量来确定是选择SAS总线上的SSD盘还是选择PCIE总线上的Flash卡。

b)降低网络的传送时延：网络时延则可以通过InfiniBand网络来解决，注意不要选择IPoIB，而是要使用RDS，相比传统UDP协议，网络延迟至少减一半。通过SRP协议，利用RDMA技术在网络层面传送SCSI指令和数据，使得数据库节点能够像操作本地SCSI设备一样读写远程的数据，对于时延的降低，不是FC网络能够企及的。

c)扩大存储层的数据缓存大小：存储层的数据缓存大小对时延也至关重要，如果有尽可能多的数据读写在缓存中进行，就避免了数据下盘。缓存的大小以及缓存算法都对缓存命中率有直接的影响，这一点往往被忽略。除了单点缓存之外，分布式缓存技术也是非常重要的，通过分布式缓存技术，可以避免单点缓存的局限性，扩大缓存的全局能力，增加缓存规模，提高缓存命中率。

3.吞吐能力：拓宽数据通路的方法有两种：使用高速InfiniBand网络、使用分布式存储。前者比较容易想到，实施也简单，基于FDR 的56Gb/s InfiniBand解决方案可实现每秒1.37亿条消息的信息通信速率，在16个计算节点上，性能表现比QDR 40Gb/s InfiniBand高出20%-30%，而与FC、万兆和4万兆以太网相比，性能更是领先了100%到300%，是最高效的计算和存储互联方案。对于后者，分布式存储，其好处在于不将数据集中存放在某几块存储介质上，而是将数据全部打散存放在多个存储节点的许多个介质上，这样避免在大规模数据并发读写访问时，存储介质的单点能力成为数据读写的瓶颈，通过分布式的并发能力来提升数据读写吞吐能力。注意的是，一定要使用高性能低时延的分布式块存储，分布式文件存储是无法满足性能要求的。

通过计算、时延、吞吐的三管齐下，通过使用SSD存储介质、InfiniBand网络交换以及分布式存储，数据库平台的性能将得到极大提升。

未来为是何种模样

高性能数据库系统未来向着内存化、云化的方向在不断发展。SAP的HANA内存数据库，Oracle 12c的内存特性，GemFire的分布式内存数据缓存，以及Spark的内存并行计算，都在昭示着内存化的未来方向，其本质还是通过内存的高速读写与高速总线来解决时延和吞吐问题。

数据库的云化，即DBaaS(数据库即服务)，其核心就是整合IT基础设施中的硬软件，实现简单化、标准化和灵活性，提升可用性以及安全保障，同时降低成本。当然，云化在性能和QoS方面也对IT基础设施提出了更多增强性的挑战。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；