主从监控项经验分享演讲主题 演讲嘉宾 主从监控项经验分享 伍昕 宏时数据 01 主从监控项简介 主从监控项 Dependent Items show global variables; 场景: Zabbix的一次数据采集可能获取多个值,(比如与第三方系统对接,获取数 据库所有状态) Zabbix的一个使用场景 主从监控项 Dependent Items http://exporter_ip:9100/metrics 主从监控项 Dependent Items Zabbix的一个使用场景 主从监控项 将Zabbix的一次数据采集获取到的多个值,分别赋值给各个从属监控项 (相关项目)监控项 DEPENDENT ITEM 数据预处理 PREPROCESSING 第一步: 第二步: 2步操作 2个Zabbix的功能 主监控项准备 Dependent Items 创建一个自定义监控项: 修改 sh restart 主从监控项 Dependent Items 第一步:配置一个(相关项目)监控项 Item PropertiesàType àDepdent itemàMaster item àDone 创建监控项 à监控项类型à依赖监控项 à选择“主监控项” à 配置结束 主从监控项 Dependent Items 第一步:配置一个依赖监控项 Item PropertiesàType0 码力 | 26 页 | 3.92 MB | 1 年前3
Zabbix高级应用 -- K8S 集群监控Zabbix高级应用 --K8s集群监控 ����� ��������FiberHome 演讲主题: • CactiFans • Zabbix • Microservice • K8s • Golang https://blog.cactifans.com/ 无边界监控 应用架构发展趋势 数据采集 RESTful 接口 LLD – 低级别发现 低级发现提供了一种监控主机上变化实体,并 自动创建监控指标,触发器和图形的方法。 l 磁盘 l 网卡 l 端口 l ....... 例如 预处理 对采集器采集的原始数据通过管道进行处理,最终达到 数据展现和存储的要求。 例如 SNMP采集交换机内存 15MB string? 图形?触发器? Kubernetes 架构 k8s node k8s pod k8s master 应用 Zabbix Agent HTTP HTTP Agent CPU/内存/磁盘/网络 服务/日志/... 状态/CPU/内存 Kubernetes 监控 Kubernetes Metrics Server 安装 https://github.com/kubernetes-sigs/metrics-server # Kubernetes 1.7 $ kubectl create -f deploy/1.7/ # Kubernetes0 码力 | 25 页 | 11.98 MB | 1 年前3
Curve质量监控与运维 - 网易数帆C u r v e 质 量 、 监 控 与 运 维 秦 亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等 多种场景自研的分布式存储系统: 高性能、低延迟 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行近两年 已完整开源 需要利用科学的方法论和专业的工具,在整个 软件生命周期内更好地为用户服务: 质量——向用户交付稳定可靠的软件; 监控——直观地展示Curve运行状态; 运维——保障Curve始终稳定高效运行。 质量 ✓ 质量管理体系(设计、开发、review、CI) ✓ 测试方法论(单元测试、集成测试、系统测试) 监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示 运维 ✓ 运维特性 (易部署、易升级、自治) (易部署、易升级、自治) ✓ 运维工具(部署工具、管理工具) 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量 软件质量的定义是:软件与明确地和隐含地定义的需求相一致的程度。 为了确保最终交付的软件满足需求,必须将质量控制贯穿于设计、开发到测试的整个流程中。 设计 设计流程 文档规范 开发 编码规范与提交流程 版本管理0 码力 | 33 页 | 2.64 MB | 6 月前3
1.6 利用夜莺扩展能力打造全方位监控系统利用夜莺扩展能力打造全方位监控系统 喻波 滴滴 专家工程师 目 录 运维监控需求来源 01 监控痛点:全面完备、跨云 02 夜莺介绍: 国产开源监控系统 03 夜莺设计实现:Agentd 数据采集 04 夜莺设计实现:Server 数据处理 05 夜莺设计实现:技术难点及细节 06 运维监控需求来源 第一部分 如果贵司的业务强依赖IT技术,IT故障会直接影响营业收入, 稳定性体系一定要重视起来,而监控,就是稳定性体系中至 稳定性体系一定要重视起来,而监控,就是稳定性体系中至 关重要的一环 运维监控需求来源 01.监控的原始需求来自业务稳定性 左图是2013年的一个新闻,讲 Google宕机的影响。2020年也出现 过aws大规模宕机的情况,影响不 止是55万美元,直接影响大半个 互联网! 2018年有美国调研机构指出,如 果服务器宕机1分钟,银行会损失 27万美元,制造业会损失42万美 元 美团故障?滴滴故障?腾讯故障? 美团故障?滴滴故障?腾讯故障? 运维监控需求来源 01.监控的原始需求来自业务稳定性 如何减少服务停摆导致的经济损失?尽快发现故障并止损!故障处理过程中,监控是『发现』和『定位』两个环节 的关键工具。故障处理过程的首要原则是『止损』,因此,过程中的『发现』和『定位』都是面向尽快『止损』来 实现。 监控痛点:全面完备、跨云 第二部分 端上、链路、资源、组件、应用多维度跨云监控,不管哪个 环节出问题都能及时感知0 码力 | 40 页 | 3.85 MB | 1 年前3
Flashcat 让监控分析变简单,Flashcat产品技术交流北京快猫星云科技有限公司 Flashcat 产品技术交流 让监控分析变简单 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 由知名开源项⽬“夜莺”的核⼼开发团队组成: 夜莺是⼀款开源云原⽣监控⼯具,是中国计算机学会接受捐赠并托管的 第⼀个开源项⽬,在GitHub上有超过8500颗星,上百位社区贡献者, 上万家企业⽤户,是国内领先的开源可观测性解决⽅案。 公司简介:快猫星云是⼀家云原⽣智能运维科技公司 由国内顶级投资机构连续投资。 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 快猫星云是国内开源监控领域最具专业性的团队之⼀ INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 Flashcat 是什么 INTERNAL OR 北京快猫星云科技有限公司 Flashcat 的特点 统⼀采集 采⽤插件化思路,内置集成上百种采集插件,服务器、⽹络设备、中间件、数据库、应⽤、业务,云上 云下,均可监控,开箱即⽤。 统⼀告警 ⽀持指标告警、⽇志告警、智能告警,⽀持⼏⼗种数据源对接,收集各类监控系统的告警事件,进⾏统 ⼀的告警收敛、降噪、排班、认领、升级、协同,⼤幅提升告警处理效率。 统⼀观测 将 Metrics、Logs、Traces、Events、Profiling0 码力 | 43 页 | 6.54 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享B站统⼀一监控系统的设计,演进 与实践分享 梁梁晓聪 devops @lxcong About Me • 梁梁晓聪 • 2015年年加⼊入B站 • devops • 热爱新技术,热爱开源 • ⼩小宅男 故事的开始 B站炸了了.舆情监控(括弧笑脸) 我们的挑战 • 技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层 应⽤用层 • cache资源 • db资源 db资源 • mq资源 • lb资源 • es资源 • 分布式⽂文件 • 进程监控 业务层 • qps/tps • 耗时分布 • 饱和度 • 吞吐量量 • 依赖响应 • 缓存命中率 • 调⽤用链 • SLA • ⽇日志 播放质量量 • 点播/直播 • 播放卡顿 • 平均⾸首帧 • 播放失败率 • 弹幕加载 • cdn质量量 客户端质量量0 码力 | 34 页 | 650.25 KB | 1 年前3
4 【王琼】容器监控架构演进 王琼 YY直播0 码力 | 23 页 | 2.17 MB | 1 年前3
基于 APM 的智能运维体系在京东物流的落地和实践-付正全基于APM的智能运维体系在京东物流的落地和实践 付正全 京东物流 架构师 自我介绍 付正全,京东物流架构师,国家认证信息系统项目管 理师,曾任浪潮集团系统架构师,专注监控平台研发 工作 8 年,研究过市场上数十家厂商的监控平台产品, 对 DevOps 和监控平台有比较深入的了解。目前负责 京东物流火眼监控平台的架构设计和开发工作。 目录 ⚫业界智能运维发展现状及趋势 ⚫智能运维体系建设方法论 ⚫智能运维体系建设方法论 ⚫大规模实时监控平台的实践方案 ⚫智能故障定位与处理实践 ⚫ APM 在京东物流的落地实践 ⚫ 智能运维(AIOps)落地规划 业界智能运维发展趋势 新的问题 运维人数不变,管理机器数翻倍 1 2 3 4 正在消失的运维 运维从业者减少,运维专家匮乏 运维平台日趋复杂,缺乏统一规划 公司内部监控/运维系统繁多,形成数据孤岛 网络拓扑日益复杂,资源云化,虚拟资 源频繁弹性伸缩。不可靠的CMDB ⚫业界智能运维发展现状及趋势分析 ⚫智能运维体系建设方法论 ⚫大规模实时监控平台的实践方案 ⚫智能故障定位与处理实践 ⚫ APM 在京东物流的落地实践 ⚫智能运维(AIOps)落地规划 智能运维体系建设方法论 ◼统一规划、避免重复建设 ◼标准化是前提 ◼产品化设计、产品化开发 ◼服务驱动 ◼运维中台 ◼业务增值 ◼过程改进 智能运维体系建设方法论 ◼闭环 ◼生命周期管理0 码力 | 41 页 | 3.52 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏CI CD CO 支撑着半个腾讯的技术运营体系——蓝鲸PaaS 腾讯蓝鲸智云,简称蓝鲸,是腾讯互动娱乐事业群(Interactive Entertainment Group,简称IEG)自用的一套用于 构建企业研发运营一体化体系的PaaS开发框架,提供了aPaaS(DevOps流水线、运行环境托管、前后台框架)和 iPaaS(持续集成、CMDB、作业平台、容器管理、数据平台、AI等原子平台)等模块,帮助企业技术人员快速构建基 平铺式架构,拓扑关系复杂,模块数量上百,服务器数量 几千…… 腾讯游戏300多款业务中,大多数是由世界各地开发商开发 出来。 所使用的开发语言、开发框架、操作系统、数据库等技术, 是没有直观规律的。 开发商很难为了运维体系而对架构或技术做大规模的修改。 有几乎所有的业务类型 有几乎所有的流行技术 300多款游戏相互之间是没有关系的。 发布变更、故障处理等运维操作场景和操作流程是没有直 观规律的。 服务器数量,也就是操作单元,有二十余万。 创建DB 初始化数 据 拉起业务 进程 布署监控 开新区 部署程序 测试验证 清理脏数 据 对外开放 获取新主 机 CMDB注 册信息 关闭故障 大区入口 新机程序 布署 大区服务 重启 测试验证 故障机回 收 故障 替换 业务配置 文件修改 对外开放 选择发布 范围 备份业务 程序&数 据 屏蔽监控 告警 关闭游戏 入口 更新程序 包0 码力 | 26 页 | 8.25 MB | 1 年前3
FIT2CLOUD CloudExplorer 产品白皮书 v1.7成为唯一被独立统计的中立型多云管理厂商。FIT2CLOUD 的研发与服务团队分布在北京、 上海、深圳、广州、南京、杭州、武汉、成都、西安、郑州、济南、长沙、厦门等地,团队 在企业 IT 云化转型、软件持续测试、云原生体系构建等方面拥有丰富的经验,客户广泛覆 盖金融、制造、能源、交通、医疗、教育、通信、传媒、房地产、互联网等行业。 杭州飞致云信息科技有限公司 软件用起来才有价值,才有改进的机会 3 目录 前言 .. 12 1.5.4 实现运营分析、IT 投入透明化及时回收优化.............................................12 1.5.5 建立数据中心 IT 体系演进框架支持迭代扩展建设.....................................12 1.6 各行业客户案例................................... 业 IT 面临的问题及解决方案进行了长期专注 的产品研发及落地实践,籍此白皮书阐述和介绍多年实践积累的产品及解决方案,希望能够 帮助广大企业能够从根本上解决传统 IT 以及 IT 基础架构、工具体系演进过程中面临的问题, 早日完成实现 IT 服务管理模式的转型,从而助力加速企业数字化转型,业务的快速发展, 减少业务快速发展在 IT 侧形成的阻力,同时解放释放 IT 人力。 杭州飞致云信息科技有限公司0 码力 | 60 页 | 0 Bytes | 1 年前3
共 83 条
- 1
- 2
- 3
- 4
- 5
- 6
- 9













