系统稳定性方法论

阅读：评论：0

系统稳定性方法论

之前在<系统稳定性方法论>中提到了稳定性建设的四大抓手，在<降发生>之后，今天来说一说其余的三点 提感知、快响应、做复盘

提感知

提感知指的是：对于已经出现问题，能够及时且精准的进行告警，提升对异常的感知能力

对异常的感知主要分为：被动接收 与 主动发现 ，抓手是 监控 & 告警

首先要明确一点，监控是分层级的，常见的可以分为5层：

分层带来了不同的关注点，基础设施的同学只需要关注基础服务层的监控；RD同学需要监控中间件、服务与业务层；对于业务与运营同学来说更关注于业务指标与用户体验

没有人喜欢收到报警，相比于那些滞后的、毫无意义、重复、完全无法理解的报警，我们更期望的是，在对成本、优先级、降打扰、时效性综合考量下的，精准的通知到目标人群

只依赖被动接收告警是不够的，还需要定时定期的主动巡检；可以设立值班制度，按照SOP 或 checklist 查看大盘、监控与指标，能够做到主动发现事前异常

不论是主动发现的异常，还是被动通知到的，首先要做的就是，快速响应！并且第一件要做的就是，快速止损，而非 尝试去定位与解决问题

遇到问题总是先想着梳理来龙去脉，这是很多RD同学的通病，这确实很重要，但眼前更重要的是快速止损，犹豫就会败北，几秒钟的耽搁可能换回的是业务的巨额损失

而快响应的前提是需要提前埋点，比如限流开关、切流开关、熔断开关，甚至一键回滚，都需要在上线之前做好兜底预案！

系统异常不可避免，没有系统能做到5个9，遇到问题也不可怕，可怕的是在同一个地方跌倒两次！

而一次好的复盘，不仅可以帮助我们梳理出异常产生的直接原因，更能帮助我们发现系统中深层次的问题，进而优化我们的底层逻辑、架构、流程… 使系统持续演进

一次标准的复盘至少包含5个方面：

本文发布于:2024-02-04 20:01:54，感谢您对本站的认可！

标签：方法论稳定性系统

留言与评论（共有 0 条评论）