扁鹊三兄弟的启示,探寻系统稳定的秘诀

一、稳定性的重要性

1. 公司收益的角度

        从公司收益的视角审视,系统不稳定可能会引发直接损失。例如,当系统突然出现故障导致交易中断时,可能造成交易款项的紊乱、资金的滞留或损失,这不但会阻碍当前交易的顺利完成,还可能诱发一系列财务纠纷与赔偿事宜。同时,订单损失亦不容小觑。系统的不稳定会导致客户下单失败、订单处理延迟或出错,促使客户取消订单,进而影响公司的业务量。长此以往,必将对公司的盈利能力和发展前景形成沉重打击。

 

2. 用户体验的角度

        从用户体验的角度出发,系统不稳定可能引发热搜,带来社会舆论的巨大压力。如今社交媒体发达,用户在遭遇系统故障时极易在网络上表达不满,引发广泛的关注和讨论。这不仅会损害公司的品牌形象,还可能导致潜在客户对公司的产品或服务产生疑虑。此外,用户对系统的信任感会大幅降低,他们会对公司的技术实力和服务质量产生质疑。这种不稳定还会直接影响用户的使用,比如页面加载缓慢、功能无法正常使用、数据丢失等问题,都会令用户感到沮丧和不满,进而降低用户的忠诚度和使用频率。

 

二、故障的种类

        常见的系统故障种类多样,涵盖变更类、容量类、依赖类、固件类和安全类等。

1. 变更类故障

变更类故障通常是由于系统更新、配置更改或软件升级过程中出现的错误导致的。比如,在更新系统版本时,新的代码可能与原有的系统架构不兼容,或者配置参数设置不当,从而引发系统功能异常或性能下降。

 

2. 容量类故障

        容量类故障往往是因为系统无法承受预期的负载而产生的。随着业务的增长,如果系统没有及时进行扩容或优化,当访问量突然大幅增加时,系统可能会出现响应迟缓、服务中断甚至崩溃的情况。

 

3. 依赖类故障

        依赖类故障则是由于外部依赖的服务或组件出现问题而影响到整个系统的正常运行。例如,系统依赖的第三方接口出现故障、网络延迟过高或者外部数据源不可用,都可能导致系统的部分或全部功能无法正常使用。

 

4. 固件类故障

        固件类故障涉及硬件设备的固件问题,比如硬件驱动程序的错误、固件版本过旧或存在漏洞,可能导致硬件设备工作异常,进而影响系统的稳定性。

 

5. 安全类故障

        安全类故障包括黑客攻击、数据泄露、恶意软件感染等安全事件。这些问题不仅会导致系统瘫痪,还可能造成用户数据的丢失和泄露,给公司和用户带来巨大的损失。

 

三、系统可用性指标

        系统可用性可以通过特定的指标来精确衡量,其中一个重要的公式为:可用性 = MTTR / (MTTF + MTTR) 。在这个公式中,分母是 MTTF(Mean Time To Failure,平均故障间隔时间)加上 MTTR(Mean Time To Repair,平均修复时间),分子是 MTTR。

        以一个具体的例子来说,如果一个系统平均每运行 60 分钟就会出现一次故障,那么 MTTF 就是 60 分钟。而每次修复故障需要 10 分钟,那 MTTR 就是 10 分钟。根据上述公式,该系统的可用性约为 14.29% 。

        此外,常提及的“N 个 9”也是衡量系统可用性的重要指标。

  • 3 个 9:99.9%的可用性,意味着(1 - 99.9%)× 365 × 24 = 8.76 小时,即系统每年的停机时间不得超过 8.76 小时。

  • 4 个 9:99.99%的可用性,(1 - 99.99%)× 365 × 24 = 0.876 小时 = 52.6 分钟,表明系统每年的停机时间不能超过 52.6 分钟。

  • 5 个 9:99.999%的可用性,(1 - 99.999%)× 365 × 24 × 60 = 5.26 分钟,意味着系统每年的停机时间不能超过 5.26 分钟。

 

四、如何提升系统稳定性

        在探讨如何提升系统稳定性之前,先为大家分享一则有趣的故事——扁鹊三兄弟的故事。

        魏文王曾问扁鹊:“你们兄弟三人都是医生,谁的医术最高明?”扁鹊回答:“大哥医术最高,二哥其次,我最差。”魏文王感到疑惑,惊讶地问:“那为什么只有你名动天下,他们两个一点名气都没有?” 扁鹊解释道:““我大哥的医术之高,可以防患于未然,一个人的病未起之时,他一望气色便知,然后用药将其调理好,所以天下人都以为他不会治病,他便一点名气都没有。我二哥的能耐,是能治病初起之时,防止别人酿成大病。病人刚开始感冒咳嗽时,他就用药将人治好了,所以我二哥的名气仅止于乡里,被人认为是治小病的医生。我呢,就因为医术最差。所以一定要等到这个人病入膏肓、奄奄一息,然后下虎狼之药,起死回生。所以都以为我的医术最高明,名气传遍诸侯各国。想想看,像我大哥这样治病,人的元气丝毫不伤,我二哥治病,这个人元气稍有破损就补回来了,像我这么治病呢,命是捞回来了,可元气大伤,您说,我们家谁医术明?”

b840e06246bf495ab18e42a23e56e3c5.jpeg

        这个故事与提升系统稳定性存在奇妙的关联,提升系统稳定性的关键举措——事前预防、及时发现、快速恢复,恰好能够与扁鹊三兄弟相对应,且看以下解析。

 

1. 扁鹊大哥——防患于未然,降低故障发生的可能性

b88b67b98fe14ca0a1a7a6fb1e180ad8.webp

        扁鹊大哥在病未发作时就将其消除,我们在提升系统稳定性时,也要向扁鹊大哥学习,全力做好预防与控制工作,将故障发生的可能性扼杀在萌芽中。为此,我们需要做到如下几点。

1.1 研发阶段

1.1.1 隔离

        在系统设计时,确保不同功能之间互不干扰。比如,将核心业务逻辑与非关键的辅助功能进行分离,即使辅助功能出现问题,也不会影响核心业务的正常运行。

 

1.1.2 幂等

        无论重复多少次,结果都应保持一致。例如,在电商系统中,多次提交相同的订单请求,系统都应只处理一次,避免重复下单造成混乱。

 

1.1.3 限流

        当流量过大时,自动拦截部分请求,以保护服务的稳定性和可用性。比如,设定每秒处理的最大请求数,超过限制的请求将被暂时缓存或拒绝。

 

1.1.4 兼容性

        在系统升级或引入新代码时,要确保新旧代码能够和谐共存。例如,在更新数据库结构时,要考虑到对旧数据的兼容处理,确保系统在升级过程中不会丢失或错误处理原有数据。

 

1.2 测试阶段

1.2.1 功能测试

        严格检验新开发的功能是否符合预期。涵盖功能的完整性、准确性、性能等方面,确保新功能在各种场景下都能正常工作。

 

1.22 回归测试

        通过对已有功能的重新测试,确保新代码确保新代码不影响至少不负面影响已有逻辑。

 

1.2.3 兼容性测试

        验证在新功能加入后,系统是否能正常运行。例如,测试新的操作系统版本与应用程序的兼容性。

 

1.2.4 压力测试

        在新功能上线之前,进行压力测试,评估系统是否能够承受预期的业务流量。最好是能把线上实际的流量录制下来,在待上线的代码上进行流量回放。

 

1.3 上线阶段

1.3.1 发布顺序

        明确各个服务的先后发布顺序。某些基础服务必须先上线,其他依赖于它的服务才能正常运行。

 

1.3.2 灰度策略

        逐步让新变化生效,如同让身体逐步适应新的环境或变化。比如,先让一小部分用户使用新功能,收集反馈并进行优化,然后再逐步扩大使用范围,降低问题的影响面。

 

2. 扁鹊二哥——一叶落而知秋,提升故障的发现速度

997a939f26be405d8033e9699f354b9c.jpeg

        扁鹊二哥在病症刚出现时就能迅速治愈,我们也要具备如他一般敏锐的洞察力和快速的反应能力,能够在系统出现小问题时就及时察觉并解决,防止问题进一步恶化。为此,我们需要做到以下几点。

 

2.1 研发环节

2.1.1 关键逻辑添加日志

        在编写代码时添加关键的日志。比如,最基础的对异常捕获后的日志,能够记录下系统出现异常时的具体情况;对下游服务调用的日志,可以追踪服务之间的交互过程;出入参日志,有助于了解数据的输入和输出情况;业务关键流程的日志,能够监控重要业务的执行过程。通过这些丰富的日志信息,一旦出现问题,就能迅速定位到故障点。

 

2.1.2 打点

        系统主动上报数据到监控系统。比如,在电商网站中,实时上报用户的浏览行为、购买行为等数据,通过对这些数据的监控和分析,能够及时发现潜在的问题,如用户购买转化率突然下降、页面浏览时长异常等。

 

2.2 运行环节

2.2.1 监控报警

        配置全面的监控,涵盖系统的各个层面和关键指标,搭配上恰到好处的报警规则,当系统指标超过预设的阈值,如 CPU 使用率过高、内存占用过大、网络延迟增加等,能够及时发出警报通知相关人员,以便迅速采取措施。

 

2.2.2 日常巡检:

        周期性主动探测各种链路是否正常,就像定期对身体进行全面的体检。比如,每天定时检查数据库连接是否正常、网络通信是否稳定、服务器负载是否均衡等,及时发现潜在的问题。

 

2.2.3 数据核对

        上下游系统的单据进行核对,发现单系统内的潜在 bug 。比如,核对订单系统和库存系统之间的数据一致性,确保订单的处理和库存的更新准确无误。

 

3. 扁鹊——动如雷霆,提升故障恢复速度

2b7a08810f734041a39fb374807e9352.webp

        扁鹊在病情严重时能够采取果断措施使其康复,我们在系统出现严重问题时,也要迅速采取有效的恢复措施,使其尽快恢复正常运行。为此我们需要做到如下几点。

 

3.1 研发阶段

3.1.1 工具建设

        针对系统中可能存在的各种问题,预先开发检测或修复的工具,如同家中会常备一些常见疾病的药品一样。例如,开发修复数据库一致性的工具、优化系统性能的工具等,在出现问题时能够迅速使用这些工具进行处理。

 

3.1.2 容灾切换

        在系统设计时,考虑到可能出现的严重问题,提前规划好快速切换流量和设施的方案。比如,建立备份数据库、备用服务器等,在主系统出现故障时能够快速切换,确保服务的连续性。

 

3.1.3 降级开关

        在发生异常情况时,能够灵活地绕开或忽略某些非关键的错误情况,保证系统的核心功能不受影响。例如,在支付系统出现故障时,可以先暂停一些高级支付方式,只保留最基本的支付渠道,确保交易能够继续进行。

 

3.1.4 流控设置

        通过对流量设置合理的上限,保护系统自身不被突然涌入的流量击垮。比如,根据系统的处理能力和资源状况,设定每秒或每分钟能够处理的最大请求数量,当流量超过上限时,进行适当的限流措施,以保证系统的稳定性。

 

3.2 运行阶段

3.2.1 限流

        根据系统的实时运行状况和负载情况,动态调整流量限制策略。比如,当发现系统资源紧张时,进一步收紧流量限制;而当系统资源充足时,适当放宽限制,以提高系统的服务能力。

 

3.2.2 禁用

        当某台机器出现严重问题,可能对整个系统造成更大影响时,直接让其停止提供服务。这样可以迅速隔离问题源,避免问题的扩散。例如,如果某台服务器频繁出现故障或响应异常,立即将其从服务集群中禁用,以保障整体系统的稳定。

 

3.2.3扩容:

        当流量持续上涨,现有资源无法满足需求时,快速扩充机器资源来抗住流量压力。比如,通过增加服务器数量、扩展存储容量等方式,提升系统的处理能力。

 

3.2.4 回滚

        当发现线上变更导致了问题时,能够迅速撤销之前的变更操作。因为系统中的变更可能多种多样,每一种变更都需要提前规划好回滚方案,确保在出现问题时能够快速消除影响,恢复到之前稳定的状态。

 

总结

        总之,提升系统稳定性,我们要借鉴扁鹊三兄弟的智慧,像扁鹊大哥一样在事前减少故障数量,像扁鹊二哥一样在问题还小时快速发现,像扁鹊一样在出现问题时迅速恢复。多管齐下,从预防、发现到恢复,全方位保障系统的稳定健康运行。

b641c1d0c3fc4763a8a61a8720a8c855.png

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/774620.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

web安全的会议室管理系统-计算机毕业设计源码50331

目 录 摘要 1 绪论 1.1 开发背景与意义 1.2国内外研究现状 1.3 相关技术、工具简介 1.3.1 MySQL数据库的介绍 1.3.2 B/S架构的介绍 1.3.3 Java语言 1.3.4 SpringBoot框架 1.4论文结构与章节安排 2 会议室管理系统需求分析 2.1 可行性分析 2.1.1 技术可行性分析 2…

【Redis】真行,原来是这样啊! --Redis自动序列化和手动序列化的区别(存储结构、内存开销,实际写法)

对于Redis有两种序列化和反序列化的方式, 方式一: 一种是通过 注入RedisTemplate 对象,找个对象,通过配置类进行一定的配置,使得使用RedisTemplate 对象时,便会使用配置的那些键、值的序列化方式&#xff…

深度学习Week19——学习残差网络和ResNet50V2算法

文章目录 深度学习Week18——学习残差网络和ResNet50V2算法 一、前言 二、我的环境 三、论文解读 3.1 预激活设计 3.2 残差单元结构 四、模型复现 4.1 Residual Block 4.2 堆叠Residual Block 4.3. ResNet50V2架构复现 一、前言 🍨 本文为🔗365天深度学…

昇腾910B部署Qwen2-7B-Instruct进行流式输出【pytorch框架】NPU推理

目录 前情提要torch_npu框架mindsport框架mindnlp框架 下载模型国外国内 环境设置代码适配(非流式)MainBranch结果展示 代码适配(流式) 前情提要 torch_npu框架 官方未适配 mindsport框架 官方未适配 mindnlp框架 官方适配…

add_metrology_object_generic 添加测量模型对象。找两条直线,并计算两条线的夹角和两个线的总长度,转换成毫米单位

*添加测量模型对象 *将测量对象添加到测量模型中 *算子参数: *    MeasureHandle:输入测量模型的句柄; *    Shape:输入要测量对象的类型;默认值:‘circle’,参考值:‘circl…

淘宝扭蛋机小程序:打造新的扭蛋体验

扭蛋机行业近年来发展非常迅速,呈现出了明显的增长势头,深受年轻消费者的青睐。当下在消费市场中,年轻人占据了很大的份额,这也推动了扭蛋机市场的发展。如今,扭蛋机也正在向多个方向发展,不再局限于线下扭…

如何利用代理IP打造热门文章

作为内容创作者,我们都知道,有时候地理限制和访问障碍可能会成为我们获取新鲜素材和优质信息的障碍。使用代理IP,正是突破这些限制的好方法! 1. 无缝获取全球视野 如果你还在苦恼看不到其他地区的热点文章,你可以尝试…

保障信息资产:ISO 27001信息安全管理体系的重要性

在当今数字化和全球化的时代,信息安全已经成为企业成功和持续发展的关键因素之一。随着信息技术的快速发展和互联网的普及,企业面临着越来越多的信息安全威胁和挑战,如数据泄露、网络攻击、恶意软件等。为了有效应对这些威胁,企业…

docker集群部署主从mysql

搭建一个mysql集群,1主2从,使用docker容器 一、创建docker的mysql镜像 下次补上,因为现在很多网络不能直接pull,操作下次补上。 二、创建mysql容器 创建容器1 docker run -it -d --name mysql_1 -p 7001:3306 --net mynet --…

Astro新前端框架首次体验

Astro新前端框架首次体验 1、什么是Astro Astro是一个静态网站生成器的前端框架,它提供了一种新的开发方式和更好的性能体验,帮助开发者更快速地构建现代化的网站和应用程序。 简单来说就是:Astro这个是一个网站生成器,可以直接…

生成式人工智能如何改变软件开发:助手还是取代者?

生成式人工智能如何改变软件开发:助手还是取代者? 生成式人工智能(AIGC)正在引领软件开发领域的技术变革。从代码生成、错误检测到自动化测试,AI工具在提高开发效率的同时,也引发了对开发者职业前景的讨论…

标贝语音识别在智能会议系统的应用案例

语音识别是指将语音信号转换成文本或者其他数字信号形式的过程,随着人工智能在人们日常工作生活中的普及,语音识别技术也被广泛的应用在智能家居、智能会议、智能客服、智能驾驶等领域,以语音识别技术在智能会议系统中的应用为例,…

【读点论文】基于二维伽马函数的光照不均匀图像自适应校正算法

基于二维伽马函数的光照不均匀图像自适应校正算法 摘 要:提出了一种基于二维伽马函数的光照不均匀图像自适应校正算法.利用多尺度高斯函数提取出场景的光照分量,然后构造了一种二维伽马函数,并利用光照分量的分布特性调整二维伽马函数的参数,降低光照过强区域图像的亮度值,提高…

服务器U盘安装Centos 7时提示Warning:/dev/root does not exist

这是没有找到正确的镜像路径导致的,我们可以在命令行输入ls /dev看一下有哪些盘符 像图中红色圈起来的就是我插入U盘的盘符,大家的输几盘可能做了多个逻辑盘,这种情况下就可以先将U盘拔掉再ls /dev看一下和刚才相比少了那两个盘符&#xff0c…

Redis高级篇之最佳实践

Redis高级篇之最佳实践 今日内容 Redis键值设计批处理优化服务端优化集群最佳实践 1、Redis键值设计 1.1、优雅的key结构 Redis的Key虽然可以自定义,但最好遵循下面的几个最佳实践约定: 遵循基本格式:[业务名称]:[数据名]:[id]长度不超过…

空调计费系统是什么,你知道吗

空调计费系统是一种通过对使用空调的时间和能源消耗进行监测和计量来进行费用计算的系统。它广泛应用于各种场所,如家庭、办公室、商场等,为用户提供了方便、准确的能源使用管理和费用控制。 可实现功能 智能计费:中央空调分户计费系统通过智…

光电液位传感器在宠物洗澡机的应用

光电液位传感器在宠物洗澡机中的应用,为洗澡机的智能化管理提供了重要支持和保障。这种先进的传感技术不仅提升了设备的操作便捷性,还大幅度提高了洗澡过程的安全性和效率。 宠物洗澡机作为宠物护理的重要设备,其水位的控制至关重要。光电液…

SD16S1Y 符合GB2312标准16X16点阵汉字库芯片IC

一般概述 SD16S1Y是一款内含16x16点阵的汉字库芯片,支持GB2312国标简体汉字(含有国家信标委 合法授权)、ASCII字符。排列格式为竖置横排。用户通过字符内码,利用本手册提供的方法计算出 该字符点阵在芯片中的地址,可从该地址连续读出字…

STM32/GD32驱动步进电机芯片TM2160

文章目录 官方概要简单介绍整体架构流程 官方概要 TMC2160是一款带SPI接口的大功率步进电机驱动IC。它具有业界最先进的步进电机驱动器,具有简单的步进/方向接口。采用外部晶体管,可实现高动态、高转矩驱动。基于TRINAMICs先进的spreadCycle和stealthCh…

以太网协议介绍——UDP

注:需要先了解一些以太网的背景知识,方便更好理解UDP协议、 以太网基础知识一 以太网基础知识二 UDP协议 UDP即用户数据报协议,是一种面向无连接的传输层协议,属于 TCP/IP 协议簇的一种。UDP具有消耗资源少、通信效率高等优点&a…