 告警OnCall事件中心建设方法白皮书
运维人员,而且还很难跟老板讲清楚价值。怎么办? 这就需要制定运维准入规则,哪个系统要交给运维人员来运维,首先要提供一些信息。 ● 相关联系人,出了问题能够及时找到人,联系不上的话得能直接联系研发领导。 ● 服务相关信息,比如代码仓库、系统架构、依赖哪些服务、依赖哪些系统参数、哪些 JVM 参数、常 见问题还有处理办法等等。 然后进行准入评审及准入测试,如果系统架构有明显问 成的事件统一聚合到一个平台来处 理,这就是 OnCall 中心,下面我们以 FlashDuty 来举例,讲解 OnCall 中心的工具实践。 工具实践篇 称手好用的工具是可以大幅提升效率的,同时,好的工具可以沉淀最佳实践,沉淀经验,假设由你来设计 一款 OnCall 产品,处理告警分发相关的这一系列需求,你会如何设计呢?接下来,我们站在设计者的角 度,来讲解产品设计逻辑和实践方法,会更容易理解。 另外,FlashDuty 提供了和 IM(飞书、企微、钉钉等)深度集成,用户无需使用电脑,在手机上就可以 快速查看故障/告警信息,比如在路上,赶去拿电脑的过程中,就可以提前快速了解相关信息,极大提升 故障排查、止损效率。 告警/故障处理 通常,我们并不会基于告警来做协同,更多的是基于故障来做协同。点击某个故障,可以看到故障详情, 会有认领、关闭、合并故障、评论等相关操作,示例图如下:0 码力 | 23 页 | 1.75 MB | 1 年前3 告警OnCall事件中心建设方法白皮书
运维人员,而且还很难跟老板讲清楚价值。怎么办? 这就需要制定运维准入规则,哪个系统要交给运维人员来运维,首先要提供一些信息。 ● 相关联系人,出了问题能够及时找到人,联系不上的话得能直接联系研发领导。 ● 服务相关信息,比如代码仓库、系统架构、依赖哪些服务、依赖哪些系统参数、哪些 JVM 参数、常 见问题还有处理办法等等。 然后进行准入评审及准入测试,如果系统架构有明显问 成的事件统一聚合到一个平台来处 理,这就是 OnCall 中心,下面我们以 FlashDuty 来举例,讲解 OnCall 中心的工具实践。 工具实践篇 称手好用的工具是可以大幅提升效率的,同时,好的工具可以沉淀最佳实践,沉淀经验,假设由你来设计 一款 OnCall 产品,处理告警分发相关的这一系列需求,你会如何设计呢?接下来,我们站在设计者的角 度,来讲解产品设计逻辑和实践方法,会更容易理解。 另外,FlashDuty 提供了和 IM(飞书、企微、钉钉等)深度集成,用户无需使用电脑,在手机上就可以 快速查看故障/告警信息,比如在路上,赶去拿电脑的过程中,就可以提前快速了解相关信息,极大提升 故障排查、止损效率。 告警/故障处理 通常,我们并不会基于告警来做协同,更多的是基于故障来做协同。点击某个故障,可以看到故障详情, 会有认领、关闭、合并故障、评论等相关操作,示例图如下:0 码力 | 23 页 | 1.75 MB | 1 年前3
共 1 条
- 1













