APM 深水区:构建连接运维与业务之桥-赵宇辰APM 深水区: 赵宇辰 @ 听云 构建连接运维与业务之桥 目录 • APM现状和痛点 • 什么是APM深水区 • 技术原理 • 实际案例 APM现状:全链路监控 基础架构 业务系统 SaaS 原生App 浏览器 H5/Webview 应用性能监控 第一代APM: 主动拨测 APP监控 浏览器监控 基础架构监控 模拟用户 拨测节点 真实用户 小程序监控 哪些错误是真正紧急、影响业务的? 哪些业务被影响了?是否是核心业务? 如何补救? 运维现状: • 系统响应时间、错误率上升 • 不知道影响了哪些业务/BU/部门/用户 • 企业损失、成本消耗无法衡量、补救 现状:运维和业务的割裂(互联网场景) 业务洞察: ⚫ 转化率 / 收入 / 活跃用户 / KPI 迅速下降 ⚫ 业务团队不知具体原因 ⚫ 多团队、部门之间解决方案不明确 ⚫ 公司业务、健康状况时刻受到影响 公司业务、健康状况时刻受到影响 业务现状: • 系统响应慢 • 营销流程中点击“提交”要等很久 • 领导批准审批超时、报错 现状:运维和业务的割裂(企业场景) 运维困境: ⚫ 各系统看似正常 ⚫ OA系统响应及时 ⚫ 网络正常 ⚫ 数据库没有报错 ⚫ 业务和IT系统的对应关系缺失 ⚫ 难以迅速定位问题 ⚫ IT / CIO / 业务部门:KPI、考核、管理层压力 目录 • APM现状和痛点0 码力 | 24 页 | 5.87 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 冲上云霄—腾讯海量业务上云实践冲上云霄—腾讯海量业务上云实践 腾讯云高级工程师 黄宏东 自我介绍 ⚫ 业务开发出身的运维 ⚫ 先后在腾讯负责游戏、安全、医疗类业务运维 ⚫ 经历数年业务爆量、成本优化、业务上云、智能运维等重点项目 ⚫ 目前负责腾讯自研业务的运维与上云工作 01 腾讯业务为什么要上云 02 业务上云的价值 03 如何上云 目录 04 上云案例分享 腾讯业务为什么要上云 接入服务 业务 服务框架 服务框架 KV/RDS CVM/Docker 接入服务 业务 服务框架 KV/RDS CVM/Docker 接入服务 业务 服务框架 KV/RDS CVM/Docker 接入服务 业务 服务框架 KV/RDS CVM/Docker IEG PCG WXG CDG “烟囱式”的业务支持体系 幸福的烦恼 ⚫ 重复造轮子,每个部门一套轮子 ⚫ 缺乏统一规范,包括开源代码在内 将原有七大事业群(BG)重组整合,新成立云与智慧产业事业群(CSIG)、平台与内容 事业群(PCG)。在连接人、连接数字内容、连接服务的基础上,更加彰显了腾讯推动由消费 互联网,向产业互联网的升级的决心。 业务上云价值 • 开发效率更高 • 云上特性(VM热迁移等) • 丰富的标准化云服务 • 云原生TKE、研发CICD流程 • 计算资源重用 • 公共组件产品化 • 丰富的公有云海外资源 •0 码力 | 26 页 | 2.39 MB | 1 年前3
Flashcat 让监控分析变简单,Flashcat产品技术交流据库、应⽤、业务,云上 云下,均可监控,开箱即⽤。 统⼀告警 ⽀持指标告警、⽇志告警、智能告警,⽀持⼏⼗种数据源对接,收集各类监控系统的告警事件,进⾏统 ⼀的告警收敛、降噪、排班、认领、升级、协同,⼤幅提升告警处理效率。 统⼀观测 将 Metrics、Logs、Traces、Events、Profiling 等多种可观测性数据融会贯通,并预置⾏业最佳实践, 既提供全局业务视⻆、技术视 RIGHTS RESERVED © 北京快猫星云科技有限公司 All-in-One 的数据采集器 Categraf • 是⼀款 All-in-One 的开源的 telemetry 数据采集器,⽀持指标、⽇志采集; • ⽀持 Tracing 数据的收集; • ⽀持物理机、虚拟机、交换机、容器、K8s、多种中间件/数据库的数据采集,云上云下,均可监控; • 汇聚领域最佳实践,开箱即⽤; INTERNAL 事件分析 指标分析 容量分析 基础设施分析 。。。 引导定位 关键特征 关键事件 量化业务层的健康状态 量化IT系统层的健康状态 预置故障定位的最佳实 践,引导分析定位问题 串联打通,交互验证 数据融合,最佳路径 ⾯向稳定性保障场景 ⾯向业务视⻆的故障发现定位体系 数据采集 数据集成(Integration) ⼀体化可观测平台 指标数据 ⽇志数据 链路数据 关键事件 业务/服务/系统/基础设施0 码力 | 43 页 | 6.54 MB | 1 年前3
基于 APM 的智能运维体系在京东物流的落地和实践-付正全◼APM成为ITOM成长最快的领域 ◼APM能够对企业的关键业务应用进行监测、诊断分 析、优化,最终能够提高应用的可靠性和质量,保证 良好的用户体验,降低IT成本 运维角色转变 背锅侠 救火员 被动响应 主动求变 需求提炼 产品化开发 产品化落地 产品意识 推广落地 业务数据分析 过程改进 技术运营 事件处理 业务分析 业务预测 业务增值 架构标准化 架构实施 架构优化 APM 在京东物流的落地实践 ⚫智能运维(AIOps)落地规划 智能运维体系建设方法论 ◼统一规划、避免重复建设 ◼标准化是前提 ◼产品化设计、产品化开发 ◼服务驱动 ◼运维中台 ◼业务增值 ◼过程改进 智能运维体系建设方法论 ◼闭环 ◼生命周期管理 ◼流程管理 ◼审计归档 目录 ⚫业界智能运维发展现状及趋势分析 ⚫智能运维体系建设方法论 ⚫大规模实时监控平台的实践方案 ◼整合多端数据,解决数据孤岛问题 ◼性能分析、告警分析更加准确 ◼更全面评估应用健康状况 大规模实时监控平台V2.0 整合各种应用维度的指标分析,提供更全面的应用数据分析和故障诊断 ◼系统指标 ◼调用链指标 ◼日志分析 ◼数据库指标 ◼JVM指标 ◼应用拓扑自动探测 应用健康报告 大规模实时监控平台V2.0 日志处理架构 大规模实时监控平台V3.0 产品规划 大规模实时监控平台V30 码力 | 41 页 | 3.52 MB | 1 年前3
Zabbix 6.0 Manual可以跟踪网站上的模拟鼠标点击路径并检查功能和响应时间 广泛的可视化选项 • 创建自定义图形的能力,可以将多个监控项组合成一个聚合图形 • 网络拓扑图 • 在仪表盘中显示幻灯片 • 报表 • 受监控资源的高级(业务)视图 历史数据存储 • 存储在数据库中的数据 • 可配置的历史(保留趋势) • 内置管家程序 建议的配置 • 将受监控的设备添加为主机 • 一旦主机被数据库添加,就会开始进行数据采集 不再支持监控项名称中的用户宏 自 Zabbix 4.0 起已弃用的监控项名称(包括发现规则名称)中对用户宏的支持已被完全删除。 Prometheus 指标的批量处理 在预处理队列中引入了依赖监控项的批量处理,以提高检索 Prometheus 指标的性能。 有关详细信息,请参阅Prometheus 检查 for more details。 Prometheus 模式的结果处理 预处理中的 Prometheus sum、min、max、avg 和 count 等函数来聚合潜在的多个匹配行的数据。 函数 Prometheus 直方图的函数 在 Zabbix 中收集Prometheus 指标 已经有一段时间了,但有些指标很难使用。具体来说,直方图类型的指标可以在 Zabbix 中呈现为具 有相同键值名称但参数不同的多个监控项。然而,即使这些监控项在逻辑上相关并代表相同的数据,如果没有专门的功能,很难分析收集 到的数据。为了弥补新版本中的这一功能空白,添加了0 码力 | 1741 页 | 22.78 MB | 1 年前3
openEuler 22.03 LTS SP2 技术白皮书2021 年 9 月 30 日,全新 openEuler 21.09 创新版如期而至,这是 openEuler 全新发布后的第一个社区版本,实现了 全场景支持。增强服务器和云计算的特性,发布面向云原生的业务混部CPU调度算法、容器化操作系统KubeOS等关键技术; 同时发布边缘和嵌入式版本。 2022 年 3 月 30 日,基于统一的 5.10 内核,发布面向服务器、云计算、边缘计算、嵌入式的全场景 30 日,发布 openEuler 22.09 创新版本,持续补齐全场景的支持。 2022 年 12 月 30 日,发布 openEuler 22.03 LTS SP1 版本,打造最佳迁移工具实现业务无感迁移,性能持续领先。 2023 年 3 月 30 日,发布 openEuler 23.03 内核创新版本,采用 Linux Kernel 6.1 内核,为未来 openEuler 长生命周 期版本采用 边云协同框架等能力,进一步提升数字基础设施协同能力,构建万物互联的基础。 面向未来,社区将持续创新、社区共建、繁荣生态,夯实数字基座。 夯实云化基座 • 容器操作系统 KubeOS:云原生场景,实现 OS 容器化部署、运维,提供与业务容器一致的基于 K8S 的管理体验。 • 安全容器方案:iSulad+shimv2+StratoVirt 安全容器方案,相比传统 Docker+Qemu 方案,底噪和启动时间优化 40%。 • 双平面部署工具0 码力 | 48 页 | 5.62 MB | 1 年前3
Zabbix 7.0 中文手册可以跟踪网站上的模拟鼠标点击的路径并检查功能和响应时间 丰富的可视化选项 • 创建自定义图形的能力,可以将多个监控项组合成一个聚合图形 • 网络拓扑图 • 在仪表盘中显示幻灯片 • 报表 • 被监控资源的高级(业务)视图 历史数据存储 • 存储在数据库中的数据 • 可配置的历史数据(保留趋势) • 内置管家程序 轻松配置 • 将受监控的设备添加为主机 • 一旦主机添加到被数据库,就会开始进行数据采集 他逻辑相关的监控对象的集合。 host group(主机组) - 主机的逻辑分组。在为不同用户组分配主机访问权限时使用主机组。 item(监控项) - 你想要接收的主机的特定数据,一个度量/指标数据。 value preprocessing(值预处理) - 在数据存入数据库之前 对接收到的监控项进行预处理转换。 trigger(触发器) - 一个被用于定义问题阈值和” 评估” 监控项接收到的数据的逻辑表达式。 运行时控制 运行时控制提供了一些远程控制选项。 操作 描述 log_level_increase 增加日志等级。 log_level_decrease 降低日志等级。 metrics 可用的指标列表。 version 显示 agent 版本。 userparameter_reload 从当前配置文件重新加载 UserParameter 和 Include 选项。 help 显示运行时控制的帮助信息0 码力 | 1951 页 | 33.43 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏速构建基 础运营PaaS。 腾讯蓝鲸智云秉承开放共赢的理念,以改变中国运维行业为起点,致力于推动国内企业借助研发运营一体化,低成本 实现企业IT经营管理模式升级和自主化。 承载数百款 腾讯业务 管控数十万 台服务器 孵化700+ 应用系统 全球多云 管控 培养数百蓝鲸运 维开发 工具驱动运维:采用运维 开发的模式,实现所有运维任 务自动化、工具化、可视化。 数据驱动运维:基于大数据 大型游戏平台; 平铺式架构,拓扑关系复杂,模块数量上百,服务器数量 几千…… 腾讯游戏300多款业务中,大多数是由世界各地开发商开发 出来。 所使用的开发语言、开发框架、操作系统、数据库等技术, 是没有直观规律的。 开发商很难为了运维体系而对架构或技术做大规模的修改。 有几乎所有的业务类型 有几乎所有的流行技术 300多款游戏相互之间是没有关系的。 发布变更、故障处理等运维操作场景和操作流程是没有直 观规律的。 服务器数量,也就是操作单元,有二十余万。 随着容器技术的普及,操作单元的数量还会暴涨。 所有业务之间无关联 业务操作单元暴涨 运维转型,困难重重 蓝鲸进化第1步:抽象原子平台 蓝鲸配置平台 获取资源 新建大区 主机注册 创建DB 初始化数 据 拉起业务 进程 布署监控 开新区 部署程序 测试验证 清理脏数 据 对外开放 获取新主 机 CMDB注0 码力 | 26 页 | 8.25 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践• 2015年加入腾讯科技(深圳)有限公司,机器学习岗位; • 智能推荐系统:神盾推荐项目,2015年7月-2016年5月 • 智能安全系统:机器学习+安全业务,2016年6月-2017年7月 • 智能运维系统:机器学习+业务运维,2017年8月-至今 SPEAKER 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 单维时间序列分析 海量时间序列 业务场景复杂 规则配置繁琐 1 2 3 时间序列异常检测 如何找到通用的解决方案? 单维时间序列分析 规则类告警策略 最大值告警 最小值告警 波动率告警 单维时间序列分析 无监督异常检测算法 Metis 的未来规划 展望未来 业务埋点 收集数据 监控系统 指标展示 多维数据 维度查询 异常检测 检测异常指标 多维下钻 分析异常维度 多维时间序列分析 多维时间序列分析 判断时间序列是否波动 人工查找可疑维度 人工查找可疑元素 1 2 3 人工分析异常维度 数据存储 多维时间序列 异常检测 多模型融合 正负样本 业务场景 特征工程 连续特征 离散特征0 码力 | 28 页 | 1.88 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享2015年年加⼊入B站 • devops • 热爱新技术,热爱开源 • ⼩小宅男 故事的开始 B站炸了了.舆情监控(括弧笑脸) 我们的挑战 • 技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 • http • tcp • ping 基础层 应⽤用层 • cache资源 • db资源 • mq资源 • lb资源 • es资源 • 分布式⽂文件 • 进程监控 业务层 • qps/tps • 耗时分布 • 饱和度 • 吞吐量量 • 依赖响应 • 缓存命中率 • 调⽤用链 • SLA • ⽇日志 播放质量量 • 点播/直播 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境 结论 • prometheus • ⽀支持任意维度label • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点 现状: • 性能 • ⾼高可⽤用 • 分布式 • 使⽤用成本 问题: ? 性能问题 • 本地ssd0 码力 | 34 页 | 650.25 KB | 1 年前3
共 68 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













