1.6 利用夜莺扩展能力打造全方位监控系统监控数据采集,all in one的agentd Agentd 进程存 活 端口监 控 插件脚 本 日志监 控 网络设 备 中间件 类 数据库 类 • 支持在web上配置采集策略,不同的采集可以指定 不同的探针机器、目标机器,便于管理和知识传 承 • 独创在端上流式读取日志,根据正则提取指标的 机制,轻量易用,无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设 备0 码力 | 40 页 | 3.85 MB | 1 年前3
告警OnCall事件中心建设方法白皮书
支持,也建议人为制定一个排班表,把这个制度落实下去,对告警闭环处理也会有很大帮助。 值班人员在值班期间,虽然已经高度重视了,但也难免疏漏,这就需要告警升级机制了。 告警升级机制 告警升级是指在第一责任人收到告警之后没有及时响应,然后系统自动通知二线、三线人员的一种机制。 一线人员没有及时响应的原因可能有很多,比如手机静音了没有听到,晚上睡着了,或者临时出去有事忘 带手机了等等。这个时候系统发现某个 迟迟没有响应,就应该继续往上升级。 告警升级机制需要认领功能的配合,也就是一线人员收到告警之后要通过某种机制告诉系统:“我已知晓 告警,现在我开始处理了,你不要升级了”。典型的认领功能一般是做在页面上的,告警后打开告警事件 管理中心,选中相关告警一键认领,也可以通过上行短信或即时通讯工具中的上行回调机制来完成。 升级机制会给值班人员很大的压力,毕竟谁也不想稍不留神就把电话打到老板那里,所以一般只有严重的 到老板那里,所以一般只有严重的 告警才会启用升级机制,警告或者通知性质的告警都不用启用升级机制。当然,这个规范怎么定,各个团 队可以自行商定。 通过排班、认领、升级这些机制,可以确保告警递达指定的人,但要处理告警的话,只有值班人员自己就 未必搞得定了,需要有协同机制把相关人都拉进来一起处理才可以。对于某个故障,可能同时有多个告警 事件产生,大家基于一个统一的故障协同,而不是基于一0 码力 | 23 页 | 1.75 MB | 1 年前3
共 2 条
- 1













