主从监控项经验分享演讲主题 演讲嘉宾 主从监控项经验分享 伍昕 宏时数据 01 主从监控项简介 主从监控项 Dependent Items show global variables; 场景: Zabbix的一次数据采集可能获取多个值,(比如与第三方系统对接,获取数 据库所有状态) Zabbix的一个使用场景 主从监控项 Dependent Items http://exporter_ip:9100/metrics s 主从监控项 Dependent Items Zabbix的一个使用场景 主从监控项 将Zabbix的一次数据采集获取到的多个值,分别赋值给各个从属监控项 (相关项目)监控项 DEPENDENT ITEM 数据预处理 PREPROCESSING 第一步: 第二步: 2步操作 2个Zabbix的功能 主监控项准备 Dependent Items 创建一个自定义监控项: 修 sh restart 主从监控项 Dependent Items 第一步:配置一个(相关项目)监控项 Item PropertiesàType àDepdent itemàMaster item àDone 创建监控项 à监控项类型à依赖监控项 à选择“主监控项” à 配置结束 主从监控项 Dependent Items 第一步:配置一个依赖监控项 Item PropertiesàType0 码力 | 26 页 | 3.92 MB | 1 年前3
Zabbix高级应用 -- K8S 集群监控Zabbix高级应用 --K8s集群监控 ����� ��������FiberHome 演讲主题: • CactiFans • Zabbix • Microservice • K8s • Golang https://blog.cactifans.com/ 无边界监控 应用架构发展趋势 数据采集 RESTful 接口 LLD – 低级别发现 低级发现提供了一种监控主机上变化实体,并 自动创建监控指标,触发器和图形的方法。 l 磁盘 l 网卡 l 端口 l ....... 例如 预处理 对采集器采集的原始数据通过管道进行处理,最终达到 数据展现和存储的要求。 例如 SNMP采集交换机内存 15MB string? 图形?触发器? Kubernetes 架构 k8s node k8s pod k8s master 应用 Zabbix Agent HTTP HTTP Agent CPU/内存/磁盘/网络 服务/日志/... 状态/CPU/内存 Kubernetes 监控 Kubernetes Metrics Server 安装 https://github.com/kubernetes-sigs/metrics-server # Kubernetes 1.7 $ kubectl create -f deploy/1.7/ # Kubernetes0 码力 | 25 页 | 11.98 MB | 1 年前3
Curve质量监控与运维 - 网易数帆C u r v e 质 量 、 监 控 与 运 维 秦 亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等 多种场景自研的分布式存储系统: 高性能、低延迟 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行近两年 已完整开源 需要利用科学的方法论和专业的工具,在整个 软件生命周期内更好地为用户服务: 质量——向用户交付稳定可靠的软件; 监控——直观地展示Curve运行状态; 运维——保障Curve始终稳定高效运行。 质量 ✓ 质量管理体系(设计、开发、review、CI) ✓ 测试方法论(单元测试、集成测试、系统测试) 监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示 运维 ✓ 运维特性 (易部署、易升级、自治) (易部署、易升级、自治) ✓ 运维工具(部署工具、管理工具) 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量 软件质量的定义是:软件与明确地和隐含地定义的需求相一致的程度。 为了确保最终交付的软件满足需求,必须将质量控制贯穿于设计、开发到测试的整个流程中。 设计 设计流程 文档规范 开发 编码规范与提交流程 版本管理0 码力 | 33 页 | 2.64 MB | 6 月前3
1.6 利用夜莺扩展能力打造全方位监控系统利用夜莺扩展能力打造全方位监控系统 喻波 滴滴 专家工程师 目 录 运维监控需求来源 01 监控痛点:全面完备、跨云 02 夜莺介绍: 国产开源监控系统 03 夜莺设计实现:Agentd 数据采集 04 夜莺设计实现:Server 数据处理 05 夜莺设计实现:技术难点及细节 06 运维监控需求来源 第一部分 如果贵司的业务强依赖IT技术,IT故障会直接影响营业收入, 稳定性体系一定要重视起来,而监控,就是稳定性体系中至 关重要的一环 运维监控需求来源 01.监控的原始需求来自业务稳定性 左图是2013年的一个新闻,讲 Google宕机的影响。2020年也出现 过aws大规模宕机的情况,影响不 止是55万美元,直接影响大半个 互联网! 2018年有美国调研机构指出,如 果服务器宕机1分钟,银行会损失 27万美元,制造业会损失42万美 元 美团故障?滴滴故障?腾讯故障? 运维监控需求来源 01.监控的原始需求来自业务稳定性 如何减少服务停摆导致的经济损失?尽快发现故障并止损!故障处理过程中,监控是『发现』和『定位』两个环节 的关键工具。故障处理过程的首要原则是『止损』,因此,过程中的『发现』和『定位』都是面向尽快『止损』来 实现。 监控痛点:全面完备、跨云 第二部分 端上、链路、资源、组件、应用多维度跨云监控,不管哪个 环节出问题都能及时感知0 码力 | 40 页 | 3.85 MB | 1 年前3
Flashcat 让监控分析变简单,Flashcat产品技术交流北京快猫星云科技有限公司 Flashcat 产品技术交流 让监控分析变简单 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 由知名开源项⽬“夜莺”的核⼼开发团队组成: 夜莺是⼀款开源云原⽣监控⼯具,是中国计算机学会接受捐赠并托管的 第⼀个开源项⽬,在GitHub上有超过8500颗星,上百位社区贡献者, 上万家企业⽤户,是国内领先的开源可观测性解决⽅案。 公司简介:快猫星云是⼀家云原⽣智能运维科技公司 由国内顶级投资机构连续投资。 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 快猫星云是国内开源监控领域最具专业性的团队之⼀ INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 Flashcat 是什么 INTERNAL OR 北京快猫星云科技有限公司 Flashcat 的特点 统⼀采集 采⽤插件化思路,内置集成上百种采集插件,服务器、⽹络设备、中间件、数据库、应⽤、业务,云上 云下,均可监控,开箱即⽤。 统⼀告警 ⽀持指标告警、⽇志告警、智能告警,⽀持⼏⼗种数据源对接,收集各类监控系统的告警事件,进⾏统 ⼀的告警收敛、降噪、排班、认领、升级、协同,⼤幅提升告警处理效率。 统⼀观测 将 Metrics、Logs、Traces、Events、Profiling0 码力 | 43 页 | 6.54 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享B站统⼀一监控系统的设计,演进 与实践分享 梁梁晓聪 devops @lxcong About Me • 梁梁晓聪 • 2015年年加⼊入B站 • devops • 热爱新技术,热爱开源 • ⼩小宅男 故事的开始 B站炸了了.舆情监控(括弧笑脸) 我们的挑战 • 技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层 应⽤用层 • cache资源 • db资源 db资源 • mq资源 • lb资源 • es资源 • 分布式⽂文件 • 进程监控 业务层 • qps/tps • 耗时分布 • 饱和度 • 吞吐量量 • 依赖响应 • 缓存命中率 • 调⽤用链 • SLA • ⽇日志 播放质量量 • 点播/直播 • 播放卡顿 • 平均⾸首帧 • 播放失败率 • 弹幕加载 • cdn质量量 客户端质量量0 码力 | 34 页 | 650.25 KB | 1 年前3
4 【王琼】容器监控架构演进 王琼 YY直播0 码力 | 23 页 | 2.17 MB | 1 年前3
CloudExplorer 3.0 管理员手册v1.2非集群产品...........................................................................186 7.4.5 添加 MySQL5.7 主从集群产品................................................................... 193 7.4.6 配置用户侧申请向导中选项.... 源池。比较知名常见的超融合平台 有 Nutanix、戴尔的 VxRail,国内的 SmartX、青云超融合。 运维支撑工具平台 指运维工作中帮助运维的各种运维工具平台,如 CMDB、ITSM、监控平台、 自动化作业工具、备份工具、漏洞扫描工具等等。 VMware 平台 虚拟化平台市场中占有率最大的平台,多数大中型企业 IT 都采用了 VMware 虚拟化平台。 PowerVC IBM 源服务,如服务器、网络、存储。 IT 管理 主要指 IT 资源的全生命周期管理方面,管理方面包括权限、访问控制、安 全合规、流程变更管理、成本费用管理、分级分组分类、集中统一管理等 IT 运维 主要指应用运行环境资源的监控、面向预警的性能分析、定位故障、批量 变更、排除故障、IT 运维管理数据同步等方面场景。 IT 运营 主要指 IT 资源投入统计分析、浪费分析,持续分析优化及时回收方面场景。 杭州飞致云信息科技有限公司0 码力 | 308 页 | 0 Bytes | 1 年前3
CloudExplorer 3.0 用户手册v1.2形成统一的资源池。比较知名常见的超融合平台有 Nutanix、戴 尔的 VxRail,国内的 SmartX、青云超融合。 运维支撑工具平台 指运维工作中帮助运维的各种运维工具平台,如 CMDB、ITSM、 监控平台、自动化作业工具、备份工具、漏洞扫描工具等等。 VMware 平台 虚拟化平台市场中占有率最大的平台,多数大中型企业 IT 都采用 了 VMware 虚拟化平台。 OpenStack 点击【添加至多机申请】后,会看到【多机申请】中增加一个申请项,如图 3-4-2 所示。在此页面可以做以下操作。 可以选择【添加】按钮添加其它配置的一组虚拟机。 可以修改已提交的虚拟机配置,如图 3-4-3 所示。 可选择【清空列表】,删除已申请的虚拟机信息。 可以选择已添加申请项的【复制】选项复制一个申请项,之后再在复制的申请 项基础上修改部分参数配置。 (5) 最后,点击【确 最后,点击【确认提交】按钮,等待管理员审批和系统自动操作部署。 图 3-4-2 多机申请页面-添加申请项 图 3-4-3 修改已申请虚拟机配置 杭州飞致云信息科技有限公司 26 3.3 申请中间件数据库集群 如果管理员发布了中间件数据库集群服务目录产品,则可在线申请中间件数据库集群部 署、由多个虚拟机组成的运行环境部署等。 以 MySQL 主从集群为例,操作步骤如下。 (1) 以工作空间用户登录后,选择进入【虚拟机服务】门户,在左边菜单中选择【申请】0 码力 | 102 页 | 0 Bytes | 1 年前3
Curve文件系统元数据持久化方案设计dump) }; Q&A© XXX Page 9 of 12 单靠 redis 的 AOF 机制能否保证数据不丢失? 不能,因为 AOF 与 SET/DEL 这些操作不是同步进行的,即使刷入文件配置项 开启最高级别的 always 选项,也有可能丢失一个事件循环的数据,实现如下: appendfsync // : call(...) // propagate(...) 所以,单靠 redis 的方案是不行了. redis 的高可用、高可扩方案? 主要是 redis cluster + 主从复制 (或者第三方 codis + 哨兵) redis cluster/codis 主要解决扩展性的问题,它会进行分片,每个 redis 实例保存分片的 key 主从复制主要解决高可用,一个分片实例挂 2 个从实例,当主节点挂掉时,cluster/哨兵会自动将从节点升为主节点 己实现持久化的逻辑要大一些,改造主要是为了让 redis 提供单独 dump/load 一个 DB 的功能: 如果改造,dump/load 的逻辑都得动,而且会牵扯到一些其他逻辑(如主从复制,因为 redis 主从全量复制发送的就是一整个 RDB 文件,即使我们不需要这个功能,这部分代码也是有耦合的)© XXX Page 11 of 12 1. 2. 3. 如果自己实现,只是一个简单的0 码力 | 12 页 | 384.47 KB | 6 月前3
共 93 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10













