京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据中心的“小故障”不容忽视
数据中心是很多复杂的高度相互关联的系统,需要许多不同的子系统功能都维持正常,才能确保设施可以提供服务。不幸的是,往往一个看似微小的错误往往会导致整个系统瘫痪。最近,维基百科的宕机是因为数据中心的光纤被意外切断,Twitter之前在奥运会期间的中断,是由于数据中心主系统和备份系统同时出现故障。
从中我们可以吸取的教训是,不仅仅是飓风、地震、公共设施中断、恶意攻击会造成数据中心宕机。任何事情,包括一个相对较小的网卡故障,也可能会破坏您的数据中心。
因此,我们对待较小的程序中断也需要像大型故障一样慎重。在这两种情况下,最关键的是做好充分的准备,以减少业务损失。以下有一些建议。
把安全作为首要任务。通常数据中心宕机是由一些很烦人的,但是对人身安全无害的事件所引起。但是当出现危险情况时(比如裸露的电导体),必须确保安全第一。不要以人民币的名义让您的员工处在危险中。另一方面,当然,你也要知道什么时候是过度保护了,避免一些不必要的安全措施。关键是要找到正确的平衡点,在尽量减少人员伤害的同时降低安全措施的成本。
未雨绸缪。这也许是最重要的一步。如果等到中断发生了,才制定行动计划,那你已经处在劣势了。提前确定应该联系谁(应该谁在现场)。制定流程来确认和解决这个问题。一份服务提供商的名单是需要准备的,因为你可能需要联系他们以寻求帮助,比如冷却装置等系统出现故障。也许最重要的是,有条有理地整理所有这些信息,方便让需要它的人能及时获取。通过提前规划,你可以更迅速地让数据中心和业务再次运行。
备份您的数据。对于大多数人来说,在大部分的时间里,保险费是讨厌的费用,看起来没有任何回报。但是,当灾难袭来时,购买的保险就派上了用场。备份你的重要数据也是一样的道理。在你没有丢失数据之前,这似乎是在浪费时间。但是你必须定期在正常运作期间进行备份,否则当中断已经发生时,就来不及了。
部署数据中心基础设施管理/监控(DCIM)解决方案。迅速解决宕机事故的关键是搞清楚问题出在哪里。手电筒和万用表可能不会奏效,你需要(最好)能集中访问您系统的信息和状态,以发现故障区域。一个DCIM解决方案可以在宕机事故发生之前,帮助确定这些麻烦的区域。
跟踪您的数据中心服务的使用率。高峰使用时间对系统会造成压力,而这可能是发现潜在问题的最佳时间。你应该在这段时间内为宕机做好最佳准备。这时最有可能发生断路器翻转或者冷却装置失效。这也是客户最需要你的时候。
结论
小故障和大故障都要做同样的准备。小故障可能对业务产生比较小的影响,但是仍然必须解决掉它,以免它以滚雪球的形式造成更大的问题。小故障可能是大问题的征兆。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03