告警OnCall事件中心建设方法白皮书
规 则的源头做好优化,自然是事半功倍。很多公司的告警规则配置没有原则可循,每次故障复盘先看告警是 否漏报,一线工程师为了不背锅,自然是尽量多地提高告警覆盖面,但这么做的后果,就是告警过多,无 效告警占多数,长此以往,工程师疲惫不堪。 那么告警规则的配置应该遵照一个什么原则呢?虽然每个公司业务不同,总有一些通用的原则可循吧?的 确如此,这里我分享一下我个人的做法,希望对你有所启发。 Nightingale 的告警规则配置页面,可以看到一个专门的 Runbook 配置,Grafana 的告警配置页面, 也有一个 Runbook 的选项,就能看出他们对它的重视程度。 这个原则看起来是不是很合理?但是真要落地的时候,又会发现紧急需要处理的告警事件通常容易对应 Runbook,但是有些告警规则产生的告警确实没有那么紧急,有些只是想作为一个通知,好像又确实难以 对应一个固定的 按照报表和巡检 的逻辑来处理,比如把这类“告警”发到一个单独的邮件组或者单独的聊天群组,平时都不用关注,只要 每天早上上班或晚上下班之前稍微看一眼就行,这样就可以减少打扰。 制定了这个原则之后,如果大家不遵守怎么办呢?还是有很多告警没有对应的 Runbook,作为管理人 员,我们应该怎么处理?我的建议是分产品线统计一个指标:“Runbook 预置率”,就是各个产品线有 多少告警规则配置了0 码力 | 23 页 | 1.75 MB | 1 年前3
FIT2CLOUD CloudExplorer 产品白皮书 v1.7场景,不断提 升服务和自动化的覆盖范围,整合演进过程中的新基础架构、新运维工具,与时俱进,保持 服务化和自动化的覆盖。能够: 快速整合支持新采纳的基础架构云平台,架构设计支持以插件符合开放封闭原则进行扩 展支持,只需要开发插件,不需要动 Web 页面层和中间业务逻辑层; 模块化扩展和整合,能够在现有框架下方便扩展支持新的运维工具整合等功能,比如整 合新采纳的运维、安全平台工具,保持服务交付过程的服务化、高效自动化。 第一,从功能性方面,看云管平台整合的基础架构平台的类型数量、版本,以及支持的 各个云平台的服务的类型和深度。 第二,从非功能性方面,看云管平台是否具备容易、快速、可靠扩展整合新云平台能力, 即满足开放封闭原则,在支持新的云平台同时不影响云管已对接的云平台相关服务功能。原 因是各类云平台种类较多且不断出现新的各类虚拟化、超融合、私有云、公有云、容器云平 台,所以云管平台就需要不断扩展支持对接云平台,同时各类基础架构虚拟化平台云平台的 务化自动化覆盖,就需要不断的与时俱进整合新采纳的 IT 平台工具,就需要能够以一种可 持续的、方便的方式扩展支持。 针对这个认识和需求,FIT2CLOUD 云管理平台整体架构设计为模块化、微服务化设计, 遵循开放封闭原则,可以在不修改已有代码基础上,通过添加模块方便扩展平台的功能。加 入的新模块自动重用系统的基础用户、权限管理,集成到门户,启动后自动在门户中出现模 块提供的功能菜单,可灵活插拔。比如增加了对某种备份工具平台的集成支持,则可以实现0 码力 | 60 页 | 0 Bytes | 1 年前3
Android概述与学习指南游戏类App开发 商业与工具类App开发 物联网应用类App开发 智能应用类App开发 当前 未来 三种智能手机应用类型 •运行于手机浏览器中 •本质上是一个传统的Web应用 •应用响应式设计原则,使之在手机上使用方便 Mobile Web •使用Java(Kotlin)/Swift开发 •编译为Android/iOS二进制代码 •可以调用所有的手机操作系统功能 Native App 找到一份Android实习或工作机会 出于某种特定的目的,满足某些特定的 需求,需要开发特定的Android应用 学习目的 学习方法 1 2 3 软件技术高效学习的“秘密”——必需及最小原则 在特定的时间段内集中精力于学习那些达到预期 学习目的所必需的知识与技能(注意这些知识与 技能构成了一个最小的集合,少一个,你想干的 事就做不成)。 “二八”现象 1.学习特 定的技术 2.编写各0 码力 | 33 页 | 3.38 MB | 1 年前3
鸟哥的Linux私房菜:服务器架设篇 第三版SELinux 10.1. 7.1 网络封包联机进入主机的流程 10.2. 7.2 网络自动升级软件 10.3. 7.3 限制联机埠口 (port) 10.4. 7.4 SELinux 管理原则 10.5. 7.5 被攻击后的主机修复工作 10.6. 7.6 重点回顾 10.7. 7.7 课后练习 10.8. 7.8 参考数据与延伸阅读 11. 第八章、路由观念与路由器设定 11 (Hub/主机之间) 长度大于 90 公尺时,自然就容易出现讯号发 生问题了! 其他噪声的干扰,最常发生在网络线或者网络设备旁边有太强的磁波; 局域网络上面,节点或者其他的设备太多,过去我们常以所谓的 543 原则来说明:(注1) 5 个网段 (segment)。所谓 segment 就在物理连接上最接近的一组计算机,在一个 BNC 网段里面 最多只能接 30 台计算机﹐且网线总长不能超过 185m。 4 参数设定、路由设定、服务与防火墙设定等 8.1. 6.1 无法联机原因分析 - 173 - 本文档使用 书栈(BookStack.CN) 构建 既然问题发生了,就要去处理他啊!那如何处理呢?以上面的星形联机图示为例,把握两个原则: 先由自身的环境侦测起,可以由自身 PC 上的网络卡查起,到网络线、到 Hub 再到调制解调器等等的硬件先 检查完。 在这个步骤当中,最好用的软件就是 ping ,而你最好能有两部以上的主机来进行联机的测试;0 码力 | 795 页 | 17.63 MB | 1 年前3
Red Hat OpenShift GitOps 1.13 了解 OpenShift GitOps将基础架构和应用程序定义定义为代码。然后,它会使用此代码来管理多个工作区和集群来简化 基础架构和应用程序配置的创建过程。根据代码原则,您可以在 Git 存储库中存储集群和应用程序的配 置,然后按照 Git 工作流将这些存储库应用到所选集群中。您可以将在 Git 存储库中开发和维护软件的核 心原则应用到创建和管理集群和应用程序配置文件。 第 第 1 章 章 什么是 什么是 GITOPS? ? 3 第 2 章0 码力 | 17 页 | 203.28 KB | 1 年前3
Linux就该这么学 第2版$SHELL /bin/bash 4.2.1 编写简单的脚本 估计读者在看完上文中有关 Shell 脚本的复杂描述后,会累觉不爱吧。但是,上文指的是 一个高级 Shell 脚本的编写原则,其实使用 Vim 编辑器把 Linux 命令按照顺序依次写入到一个 文件中,就是一个简单的脚本了。 例如,如果想查看当前所在工作路径并列出当前目录下所有的文件及属性信息,实现这 个功能的脚本应该类似于下面这样: 命令把特定命令的执行权限赋予指定用户,这样既 可保证普通用户能够完成特定的工作,也可以避免泄露 root 管理员密码。我们要做的就是合 理配置 sudo 服务,以便兼顾系统的安全性和用户的便捷性。 授权原则:在保证普通用户完成相应工作的前提下,尽可能少地赋予额外的权限。 sudo 命令用于给普通用户提供额外的权限,语法格式为“sudo [参数] 用户名”。 使用 sudo 命令可以给普通用户提供额外的权限来完成原本只有 Music Public Videos 效果立竿见影!但是考虑到生产环境中不允许某个普通用户拥有整个系统中所有命令的最高 执行权(这也不符合前文提到的权限赋予原则,即尽可能少地赋予权限),ALL 参数就有些不合 适了。因此只能赋予普通用户具体的命令以满足工作需求,这也受到了必要的权限约束。如果需 要让某个用户只能使用 root 管理员的身份执行指定的命令,切记一定要给出该命令的绝对路径,0 码力 | 552 页 | 22.25 MB | 1 年前3
CurveFS S3数据整理(合并碎片、清理冗余)会需要对这些chunk进行筛选和构建, 得到有效的部分, 越是散乱的状态, 就越需要发送更多次读请求至s3. 最后导致无效旧数据的堆积和读请求性能的下降, 所以需要在合适的时候进行重叠元数据和数据的合并 原则是尽力而为, 并不能做到完美 方案 基于一下3个基础的数据结构, 2层索引 s3chuninfolist[index] = [s3chunkinfo(s)] s3chunkinfo {0 码力 | 3 页 | 101.58 KB | 6 月前3
1.6 利用夜莺扩展能力打造全方位监控系统美团故障?滴滴故障?腾讯故障? 运维监控需求来源 01.监控的原始需求来自业务稳定性 如何减少服务停摆导致的经济损失?尽快发现故障并止损!故障处理过程中,监控是『发现』和『定位』两个环节 的关键工具。故障处理过程的首要原则是『止损』,因此,过程中的『发现』和『定位』都是面向尽快『止损』来 实现。 监控痛点:全面完备、跨云 第二部分 端上、链路、资源、组件、应用多维度跨云监控,不管哪个 环节出问题都能及时感知0 码力 | 40 页 | 3.85 MB | 1 年前3
APM 深水区:构建连接运维与业务之桥-赵宇辰第一代APM: 主动拨测 APP监控 浏览器监控 基础架构监控 模拟用户 拨测节点 真实用户 小程序监控 运维中的问题都是 平等 的吗? 每天遇到的海量警报都一样重要吗? 它们是否也遵守2/8原则? 哪些错误是真正紧急、影响业务的? 哪些业务被影响了?是否是核心业务? 如何补救? 运维现状: • 系统响应时间、错误率上升 • 不知道影响了哪些业务/BU/部门/用户 • 企业损失、成本消耗无法衡量、补救0 码力 | 24 页 | 5.87 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享能覆盖⼤大部分监控场景 • 固定⼏几种数据类型 ✦ Counter ✦ Gauge ✦ 等.. • 时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征 选型原则 • 基于开源⽅方案,⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境 结论 • prometheus • ⽀支持任意维度label • cncf基⾦金金会0 码力 | 34 页 | 650.25 KB | 1 年前3
共 34 条
- 1
- 2
- 3
- 4













