积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部系统运维(78)Linux(35)DevOps(14)存储(10)Zabbix(9)Prometheus(4)网络与安全(2)eBPF(2)Cilium(1)

语言

全部中文(简体)(69)英语(3)中文(繁体)(2)西班牙语(1)法语(1)中文(简体)(1)

格式

全部PDF文档 PDF(76)PPT文档 PPT(2)
 
本次搜索耗时 0.273 秒,为您找到相关结果约 78 个.
  • 全部
  • 系统运维
  • Linux
  • DevOps
  • 存储
  • Zabbix
  • Prometheus
  • 网络与安全
  • eBPF
  • Cilium
  • 全部
  • 中文(简体)
  • 英语
  • 中文(繁体)
  • 西班牙语
  • 法语
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 告警OnCall事件中心建设方法白皮书

    监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能 力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升 级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是 PagerDuty FlashDuty 这种产品存在的价值。这些产品都是以 Duty 命名,核心就是支持告警 OnCall 值班处理的场景。 值班处理的场景。 对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分 别进行探讨,下面先行探讨思路方法,看看要解决这些问题和需求,我们有哪些可能的解法。 思路方法篇 告警事件的后续处理:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环 处理等等。看起来需求很多,最核心的痛点有两个: ● 告警太多,打扰太多 ● ● 告警疏漏,无法闭环 我们先来看第一个痛点,首先分析一下造成告警太多、打扰太多的原因是什么,然后针对原因提出对应的 方案。 告警太多的常见原因 最常见的原因,是告警规则设置得不合理。比如很多规则触发了告警之后,实际没有后续动作,只是起到 常态化通知的效果,不需要排查,也不需要止损,甚至连个长线的 TODO 都没有。这类告警多了人就疲 了,当重要的告警来临的时候,也
    0 码力 | 23 页 | 1.75 MB | 1 年前
    3
  • pdf文档 基于 APM 的智能运维体系在京东物流的落地和实践-付正全

    ◼低资源使用率TOP统计 ◼低负载应用榜单 ◼低资源使用率应用优化建议 多维度使用率分析助力企业降本增效 使用率报表 大规模实时监控平台V2.0 ◼整合多端数据,解决数据孤岛问题 ◼性能分析、告警分析更加准确 ◼更全面评估应用健康状况 大规模实时监控平台V2.0 整合各种应用维度的指标分析,提供更全面的应用数据分析和故障诊断 ◼系统指标 ◼调用链指标 ◼日志分析 ◼数据库指标 事前感知:通过故障预测算法,预测故障类型及发生时间,并提前通知项目负责人; 2. 自动处理:决策引擎根据预设的事件处理策略,自动执行处理指令以及基于机器学习的自动故障处理; 3. 定时巡检:平台化的定时巡检机制,给出应用健康报告,问题早发现早解决; 4. 报警收敛:对告警做告警筛选、过滤、合并操作,大大减少报警数量; 故障快照 ◼出现告警自动抓取现场快照信息 ◼快照信息持久化保存 ◼根据自学习的知识库提供异常原因分析 根因分析 基于双向过滤的告警通知 恢复 轻度 中度 严重 过 滤 通知处理引擎 过 滤 高级通知策略 方法告警 日志告警 资产 资产 资产 邮件 短信 咚咚 微信 调用链告警 业务告警 业务告警 每天 每月 每周 自定义 时间规则 ◼为保证告警信息能够及时准确的传达给系 统管理员,监控模块需要实现灵活的告警通 知策略 ◼双重过滤的通知方式:资源和通知联系人
    0 码力 | 41 页 | 3.52 MB | 1 年前
    3
  • pdf文档 B站统⼀监控系统的设计,演进 与实践分享

    技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取
 监控⽬目标
 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 降低使⽤用成本 alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取
 监控⽬目标
 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 1. 降低编写规则的成本
    0 码力 | 34 页 | 650.25 KB | 1 年前
    3
  • pdf文档 Zabbix 7.0 中文手册

    是一个企业级的开源分布式监控解决方案。 Zabbix 是一款监控众多参数的网络以及服务器、虚拟机、应用程序、服务、数据库、网站、云等的健康和完整性的软件。Zabbix 使用灵活 的通知机制,允许用户为几乎任何事件配置基于电子邮件的告警,以实现对服务器问题做出快速反应。Zabbix 基于存储的数据提供出色 的报告和数据可视化功能。这使得 Zabbix 成为容量规划的理想选择。 Zabbix 支持轮询和 trapping。所有 Zabbix 自定义检查 • 以自定义间隔收集所需数据 • 由 server/proxy 和 agents 执行 灵活的阈值定义 • 可以定义非常灵活的问题阈值,称为触发器,从后端数据库引用值 高度可配置的告警 • 可以针对升级计划、收件人、媒体类型自定义发送通知 • 使用宏可以使通知变得有意义和友好 • 自动化操作包括执行远程命令 实时图形 • 采集到的监控项值可以使用内置的绘图功能立即图形化 为用户提供了更多灵活的配置: • 预配用户媒介 可以禁止/启用; • 预配媒介属性 例如 何时发送, 告警级别设置和 状态可以手动修改; • 可以为预配用户添加额外的用户媒介 (例如, 电子邮件) ; • 可以删除手动添加的用户媒介 (预配的用户媒介不可删除)。 此外,在配置用户媒介映射时,可以使用 何时发送, 告警级别设置和 状态等属性。请注意,对媒体类型映射表的更改仅在新的媒介创建时 生效。 被动 agent
    0 码力 | 1951 页 | 33.43 MB | 1 年前
    3
  • pdf文档 openEuler 23.09 技术白皮书

    的可编程调度框架,支持内核调度器动态扩展调度策略,以满足不同负载的性能需求,具备 以下特点: (1) 标签管理机制:开放对任务和任务组进行标签标记的能力,用户和内核子系统可通过接口对特定工作负载进行 标记,调度器通过标签可以感知特定工作负载的任务。 (2) 抢占、选核、选任务等功能点的策略扩展:可编程调度框架支持 CFS 调度类抢占、选核、选任务等功能的策略扩展, 提供精心设计的扩展点和丰富的 提供精心设计的扩展点和丰富的辅助方法,帮助用户简单,高效的扩展策略。 • Numa Aware spinlock:基于 MCS 自旋锁在锁传递算法上针对多 NUMA 系统优化,通过优先在本 NUMA 节点内传递, 能大量减少跨 NUMA 的 Cache 同步和乒乓,从而提升锁的整体吞吐量,提升业务性能。 • 支持 TCP 压缩:大数据等场景节点间数据传输量大,网络传输是性能瓶颈。在 TCP 层对指定端口的数据进行压缩后 了一种灵活的 方式来管理文件系统缓存的写回行为,以满足不同应用场景下的需求。它可以帮助优化系统的 IO 性能,并提供更好的 资源控制和管理能力。主要功能包括:缓存写回控制、IO 优先级控制、写回策略调整等。 • 支持核挂死检测特性:解决 PMU 停止计数导致 hardlockup 无法检测系统卡死的问题,利用核间 CPU 挂死检测机制, 让每个 CPU 检测相邻 CPU 是否挂死,保障系统在部分
    0 码力 | 52 页 | 5.25 MB | 1 年前
    3
  • pdf文档 2.2.1通过Golang+eBPF实现无侵入应用可观测

    cn/post/7280746515525156918 安全 看到和理解所有系统调用的基础上,将其与所有网络操作的数据包和套接字级视图相结合,通 过检测来阻止恶意攻击行为,如 DDoS攻击等,实施网络策略、增强系统的安全性、稳定性。 From:https://zhuanlan.zhihu.com/p/507388164 微服务可观测的挑战 第三部分 微服务可观测的挑战 应用:微服务架构、多语言、多协议 运行情况,进一步提升问题定位能力,通常在已经定位到某个异常节点后使用。 实例 全栈数据源,70+个告警模板开箱即用: 应用级别:Pod/Service/Deployment K8S控制面:apiserver/ETCD/Scheduler 基础设施:节点、网络、存储 云服务界别:Kafka/MySQL/Redis/ 告警 拓扑图排查 根因定位 修复 告警收敛,幸福感UP 指标 日志 Trace分析 黄金指标 网络指标 服务依赖 面向失败、高可用设计 优化告警 主动发现 智能降噪、去重 系统性解决 系统性解决 关闭 智能告警 全栈数据源,70+个告警模板开箱即用: 应用级别:Pod/Service/Deployment K8S控制面:apiserver/ETCD/Scheduler 基础设施:节点、网络、存储 云服务界别:Kafka/MySQL/Redis/ 告警 拓扑图排查 根因定位 修复 告警收敛,幸福感UP
    0 码力 | 29 页 | 3.83 MB | 1 年前
    3
  • pdf文档 高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏

    关闭故障 大区入口 新机程序 布署 大区服务 重启 测试验证 故障机回 收 故障 替换 业务配置 文件修改 对外开放 选择发布 范围 备份业务 程序&数 据 屏蔽监控 告警 关闭游戏 入口 更新程序 包 更新数据 库 启动游戏 进程 版本 发布 停游戏进 程 测试验证 对外开放 蓝鲸作业平台 蓝鲸进化第2步:场景与原子的分离 API Gateway 蓝鲸进化第3步:平台化开发模式让运维应用自生长 传统开发模式 应用需求 公共 组件 环境 构建 资源 准备 代码 部署 应用 开发 监控 告警 日志 追溯 基于PaaS的开发模式 应用需求 公共 组件 环境 构建 资源 准备 代码 部署 应用 开发 监控 告警 日志 追溯 运维开发 负责企业技术运营领域(CI、CD、CO)相关场景的系统构建,例如持续集成、日志分析、资 源管理、版 容器管理 文件传输 指令执行 预发布环境 更新 生产环境 发布 发布系统 实时计算 离线计算 数据采集 数据存储 监控曲线 展示 智能告警 监控系统 Jenkins 版本仓库 报表编辑器 BI引擎 版本管理 配置存取 告警策略 管理 发送短信 数据存储 版本 视图 自助 发布 临时 活动 流程 系统 老板 视图 配置 刷新 周报 邮件 业务 门户 ....
    0 码力 | 26 页 | 8.25 MB | 1 年前
    3
  • pdf文档 高效智能运维[云+社区技术沙龙第29期] - 冲上云霄—腾讯海量业务上云实践

    成为标准服务,孵化成更好的 云服务 • 服务开源生态 • 为行业输出公有云迁移经验 • 更丰富的云服务和工具提供给 客户 业务价值 工程师价值 客户价值 如何上云? --提升上云效率,降低迁移风险 业务上云策略 CLB 接入服务 业务 服务框架 Redis/CKV COS Docker/K8S/TKE CKafka CDB/Mysql IEG PCG WXG CDG CISG TEG ⚫公有云专线与自研互通 ⚫使用公有云服务 ⚫改造较大的搬迁组件上云 ⚫使用云原生PaaS ⚫边上云边改造 CFS 业务上云五部曲 规划 设计 实施 验证 维护 信息收集 需求评估 应用分析 风险分析 上云策略 方案设计 风险应对 上云计划 技术准备 功能测试 性能测试 数据备份 云上部署 业务验证 效果评估 问题优化 正式上云 运营维护 上云各环节注意点 业务上云 测试 方案 Kubernetes多集群管理 Cluster1 Cluster2 ……. 应用服务管理 集群监控 集群日志 集群告警 基础设施监控 基础设施日志 基础设施告警 管理体系 业务管理 用户体系 权限 审计 安全 资源调度 服务监控 服务告警 远程日志 自动扩缩容 负载均衡 服务发现 CI/CD 蓝盾 OCI QCI 镜像仓库 CSIGHUB DockerImage
    0 码力 | 26 页 | 2.39 MB | 1 年前
    3
  • pdf文档 高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践

    的研究方向 展望未来 单维时间序列分析 海量时间序列 业务场景复杂 规则配置繁琐 1 2 3 时间序列异常检测 如何找到通用的解决方案? 单维时间序列分析 规则类告警策略 最大值告警 最小值告警 波动率告警 单维时间序列分析 无监督异常检测算法 (自编码器) 原始数据 生成数据 单维时间序列分析 无监督异常检测算法 (N-Sigma) 单维时间序列分析 有监督异常检测算法 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 异常检测 单指标异常检测,多指标异常检测 根因分析 智能多维下钻分析,链路调用根源分析 告警收敛 事件与事件,事件与时序,时序与时序 日志分析 日志模板提取,日志异常检测,日志聚类分析 腾讯 Metis 智能运维方向 发现问题 分析问题 解决问题 THANKS 关注云加社区公众号
    0 码力 | 28 页 | 1.88 MB | 1 年前
    3
  • pdf文档 Zabbix 6.0 Manual

    是一个企业级的开源分布式监控解决方案。 Zabbix 是一款监控网络的众多参数以及服务器、虚拟机、应用程序、服务、数据库、网站、云等的健康和完整性的软件。Zabbix 使用灵活 的通知机制,允许用户为几乎任何事件配置基于电子邮件的告警,以实现对服务器问题做出快速反应。Zabbix 基于存储的数据提供出色 的报告和数据可视化功能。这使得 Zabbix 成为容量规划的理想选择。 Zabbix 支持轮询和 trapping。所有 Zabbix 自定义检查 • 以自定义间隔收集所需数据 • 由 server/proxy 和 agents 执行 灵活的阈值定义 • 可以定义非常灵活的问题阈值,称为触发器,从后端数据库引用值 高度可配置的告警 • 可以针对升级计划、收件人、媒体类型自定义发送通知 • 使用宏可以使通知变得有意义和有用 • 自动化操作包括执行远程命令 实时图形 • 采集到的监控项值可以使用内置的绘图功能立即绘图 一个新的 根本原因(Root cause)列显示了直接或间接影响服务状态的潜在问题。 如果您单击问题名称,您可以在 Monitoring → Problems 中查看有关它的更多详细信息。 服务状态变化告警 现在可以接收有关服务状态更改的自动警报,类似于有关触发器状态更改的警报。 添加了一种新的服务动作 类型,类似于 Zabbix 中的其他动作。服务可能动作包括与服务相关的问题、恢复和更新动作的步骤。可以配置
    0 码力 | 1741 页 | 22.78 MB | 1 年前
    3
共 78 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 8
前往
页
相关搜索词
告警OnCall事件中心建设方法白皮皮书白皮书基于APM智能运维体系京东物流落地实践付正全监控系统设计演进分享Zabbix7.0中文手册openEuler23.09技术2.2通过GolangeBPF实现侵入应用观测高效社区沙龙29蓝鲸研发PaaS张敏冲上云霄腾讯海量业务上云Metis项目6.0Manual
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩