京公网安备 11010802034615号
经营许可证编号:京B2-20210330
想使用 MongoDB ,你应该了解这8个方面!
应用性能高低依赖于数据库性能,MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写,旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。
本文针对实时监控 MongoDB 数据库,总结了一些使用的工具以及需要重点注意的性能方面。
MongoDB 用自己的工具来统计现在运行的 MongoDB 服务器的数据,并进行实时报告分析:
mongostat:可以展示像 opcounts,lock%,内存使用以及副本集更新状态等关键指标,因为可以实时看到发生的状况,所以一般用于故障除疑。
mongotop:mongostat 提供的是全局指标,而 mongotop 则提供追踪 MongoDB 实例花费在读写操作数据的时间指标,提供每个集合级别的统计数据。
is.status():返回的是当前服务器节点执行操作后副本集的状态,通过这个来实时查看集群的变化。
sh.status():返回你的分片集群的状态,尤其是每块碎片的数量,显示关于分片集群的现有区块的信息的格式化的报告,如果区块大于等于20就不显示详细块信息。
内存可能是你可以给 MongoDB 的最重要的资源,因为 Mongodb 是相当吃内存的,如果控制不好的话,mongodb会挂掉。。。所以你要确保你给的内存总是有足够的!经验之谈是提供符合索引数量的足够的 RAM,如果可能的话,为所有数据提供足够的内存。
常驻内存是这里的关键指标,MongoDB 内存 mem 记录了 Mongod 的系统架构和内存使用。
页面错误和内存相关因为页面错误发生时是 MongoDB 去磁盘里面查找数据而不是内存中,如果内存的数量不能满足性能需求,那么你将会看到页面错误,随着页面错误率的上升,opcounters 最终会低于期望值,所以这时你应该增加可用的 RAM。
连接到 MongoDB 的每个连接都有助于追踪系统所需的内存的开销。这最初由 Unix 通过 ulimit 来设置限制,但随后成为由服务器资源,特别是存储器限制。
过高数量的连接数还可以指明问题,例如你的应用程序代码打开太多的连接,造成某地方产生很高的 lock% 。
有时客户端和数据库之间的连接数超出服务器处理请求的能力,这可能会导致在 MongoDB 环境的应用程序性能的下降。
不多说,实时掌握数据库操作的统计数据以及复制和分片操作的详细信息,确保每秒数据库操作(inserts,query,update,delete,getmore 等 command 命令)的总数有助于分析和跟踪数据库的负载。
MongoDB 使用一个全局锁来确保一致性。但是,如果某些操作是长时间运行的或形成一个队列,操作等待锁就会大大降低应用程序性能。
在 MongoDB 2.6版本中,锁是数据库级别的,一直持续 MongoDB 2.8,写操作都是一个全局性数据库锁,MongoDB 使用的这种「readers-writer」锁,虽然支持并发但有很大的局限性,当一个读锁存在,许多读操作可以使用这把锁,然而当一个写锁存在时,其它读写操作不能使用共享这个锁,写入优先于读取,当两个操作一个读取和一个写入正在等待锁,MongoDB 会授予写锁,所以如果写锁发生的过于频繁,那么你应用的性能出现文件也就不奇怪了。当然如果你的应用中真的有大量的写操作,可以考虑 Cassandra 数据库。
MongoDB 复制集通过将数据部署在多个不同的服务器上,防止因单机故障而造成数据的丢失,借助数据冗余来提高数据的可靠性和安全性。而且还可以通过复制技术构建分布式数据库,提高系统的访问性能和安全性。
复制集同步数据过程是:Primary 节点写入数据,Secondary 通过读取 Primary 的 oplog 得到复制信息,开始复制数据并且将复制信息写入到自己的 oplog,复制延迟是 Primary 节点上写入到 Secondary 节点读取 oplog 再写入操作的延迟,复制延迟可能是一个显著的问题,严重影响 MongoDB 副本集部署,过度复制延迟使「滞后」的节点将很快成为 Primary ,增加了分布式读操作不一致的可能性。
分片是在多台计算机存储数据记录的过程中 MongoDB 来满足数据增长需求的特有方式。随着数据量的增加,一台服务器可能不足以存储数据或提供大量的读写操作。分片解决了水平扩展的问题,通过分片,可以添加更多的机器来支持数据增长以及满足读写操作的需求。
MongoDB 在集合的水平上分割数据和分片,通过一个片键( shard key )来分割分片。
为了将一个集合分片,需要选择一个片关键字。一个片键是一个索引字段,或是存在于每个集合文档中的一个复合索引字段。选择正确的分片键可以对应用性能,功能以及数据库和集群的运作有很大的影响,合适的分片键选择取决于你的数据的架构和应用程序的查询和写入数据的方式。而且 Mongodb 数据库是否能高效运转也取决于你指定了文档的哪个字段作为分片字段。由于分片字段都是预先选择且选定后无法更改的,而且考虑到 MongoDB 纵向扩展能力的限制,选择时就需要深思熟虑了。分片键应该满足以下条件:
分配 — 分片键最糟糕的情况是自增的值(当所有的写操作将被平衡到单个碎片时就意味着”热碎片”的发生,而这就是瓶颈)。理想的分片重点应该读和写是尽可能多的”随机分布”。
理想的片键主要功能应该是用于查询,如果大部分的查询请求都能够命中尽可能少的分片那就最好了。
一个好的片键使得 MongoDB 分配内容变的容易。MongoDB 会根据你的设置将你的数据划分到有着相同片键的数据块 (Chunk) 中。而后这些数据块将根据片键的大致顺序分散到副本集中。
想要看以上数据指标,需要一定的监控手段,MongoDB 本身有一堆自己的工具,此外还有开源工具以及第三方厂家提供的监控软件,总结为一点,监控很重要,Cloud Insight 全面监控 MongoDB,一工具在手,默认60个数据指标,MongoDB 发生什么都了然于心。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15