Flashcat 让监控分析变简单,Flashcat产品技术交流将 Metrics、Logs、Traces、Events、Profiling 等多种可观测性数据融会贯通,并预置⾏业最佳实践, 既提供全局业务视⻆、技术视⻆的驾驶舱,也提供层层下钻的故障定位能⼒,有效缩短故障发现和定位 时间。 统一采集 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 All-in-One 的数据采集器 统一观测 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 以故障处理为中⼼的稳定性保障模型 故障开始 故障发现 故障定位 服务⽌损 状态恢复 状态正常 状态正常 发现处理 可能出现尝试定位和 尝试⽌损过程的反复 常态预防 复盘改进 ⾸要原则是:先⽌损后排查 状态异常 稳定性建设的重点 增强预防、发现处理能⼒ Flashcat 发现 真.故障 收敛 故障范围 引导下钻定位 引导下钻定位 北极星 灭⽕图 ⽇志分析 链路分析 事件分析 指标分析 容量分析 基础设施分析 。。。 引导定位 关键特征 关键事件 量化业务层的健康状态 量化IT系统层的健康状态 预置故障定位的最佳实 践,引导分析定位问题 串联打通,交互验证 数据融合,最佳路径 ⾯向稳定性保障场景 ⾯向业务视⻆的故障发现定位体系 数据采集0 码力 | 43 页 | 6.54 MB | 1 年前3
基于 APM 的智能运维体系在京东物流的落地和实践-付正全DevOps 和监控平台有比较深入的了解。目前负责 京东物流火眼监控平台的架构设计和开发工作。 目录 ⚫业界智能运维发展现状及趋势 ⚫智能运维体系建设方法论 ⚫大规模实时监控平台的实践方案 ⚫智能故障定位与处理实践 ⚫ APM 在京东物流的落地实践 ⚫ 智能运维(AIOps)落地规划 业界智能运维发展趋势 新的问题 运维人数不变,管理机器数翻倍 1 2 3 4 正在消失的运维 前端网页 请求 应用B 应用C 服务调用 服务调用 应用F 应用G 服务调用 服务调用 应用H 服务调用 服务调用 服务调用 应用A 数据库 JDBC 前端网页 请求 系统问题定位难 快速发展的APM APM (应用性能管理)市场规模逐年递增 0 10 20 30 40 50 60 70 2014 2015 2016 2017 2018 APM市场规模(亿美元) 架构标准化 架构实施 架构优化 架构运维 运维价值凸显 新运维时代来临 目录 ⚫业界智能运维发展现状及趋势分析 ⚫智能运维体系建设方法论 ⚫大规模实时监控平台的实践方案 ⚫智能故障定位与处理实践 ⚫ APM 在京东物流的落地实践 ⚫智能运维(AIOps)落地规划 智能运维体系建设方法论 ◼统一规划、避免重复建设 ◼标准化是前提 ◼产品化设计、产品化开发 ◼服务驱动0 码力 | 41 页 | 3.52 MB | 1 年前3
openEuler 21.09 技术白皮书高效智 能运维系统产生,助力企业降本增效。业界 Redhat Insights 以数据驱动结合智能引擎实现故障自动预测、诊断及定位, 将操作系统安全、性能等疑难问题解决周期,从数小时降到几分钟。 openEuler 智能运维推出智能运维基本框架,提供配置溯源,应用拓扑感知,故障定位基础能力,支持快速排障和运维 成本降低。 功能描述 1. 应用拓扑感知:是基于 eBPF 的低负载探针 集群式 OS 配置管理能力,通过用户 自定义域范围,实现配置基线和比较功能,快速排除配置问题。 3. 故障定位:提供专家模式引擎,对系统故障实时感知,及时修复系统故障,减少宕机时间和运维投入。 应用场景 适用于具备较多经验的 OS 维护团队,采用 A-OPS 现有故障树或者新增故障树,可有效提升维护效率,减少宕机时间。 安全策略配置工具 secPaver 是一款 SELinux 安全 Mysql Plasticsearch 数据存储 应用拓扑感知 日志 系统指标 系统状态 故障推导引擎 配置溯源 统一数据管理 agent 数据采集 KPI Customer agent 数据采集 KPI Customer agent 数据采集 KPI Customer secPaver功能定位:端到端的策略开发工具 提供统一策略配置文件格 式,最大程度屏蔽安全机 制细节。 多种安全机制策略一键0 码力 | 35 页 | 3.72 MB | 1 年前3
openEuler 22.03 LTS SP2 技术白皮书rubik 性能调优 弹性限流 拓扑编排 资源预测 隔离抢占 资源调优 QoS配置 指标监控 资源使用 eBPF PMU RDT 干扰检测 性能干扰建模 QoS违规检测 干扰源定位 干扰控制 离线资源压缩 千扰源驱逐 异常告警 OS SLI interface I/O QoS CPU QoS MEM QoS Cache QoS Net QoS 19 openEuler openEuler 22.03 LTS SP2 技术白皮书 特性增强 SysCare 热补丁能力 在 Linux 世界,有一个困扰大家已久的难题:如何在不影响业务的情况下,快速可靠地修复漏洞、解决故障。 当前常见的方法是采用热补丁技术:在业务运行过程中,对问题组件直接进行代码级修复,业务无感知。然而,当前 热补丁制作方式复杂,补丁需要代码级匹配,且管理困难,特别是用户态组件面临文件形式、编程语言、编译方式、运行 格式的热修复,不支持解释型语言,不支持纯汇编修改。 • 当前仅支持 GCC / G++ 编译器,且不支持交叉编译。 • 暂不支持 LTO 优化。 应用场景 1: CVE 补丁快速修复。 应用场景 2: 现网问题临时定位。 应用场景 24 openEuler 22.03 LTS SP2 技术白皮书 特性增强 kunpengsecl 软件包支持平台和 TEE 远程证明 鲲鹏安全库(kunpengsecl)是0 码力 | 48 页 | 5.62 MB | 1 年前3
openEuler 21.03 技术白皮书子系统、通过多通道并发提升 IO 性能。 • OpenStack&Kubernetes:向云而生,集成两大主流云计算调度和管理软件,构筑云化基座 。 • HA 高可用集群方案:麒麟软件贡献的 HA 高可用集群方案,故障秒级切换。 繁荣社区生态: • 更多桌面环境支持:UKUI、DDE 、Xfce 桌面环境,丰富社区桌面环境生态。 平台架构 6 7 openEuler 21.03 技术白皮书 openEuler 用户控制接口。热点锁及信号量优化,激进内存 和碎片整理,优化 VMAP、vmalloc 机制,显著 提升内存申请效率。KASAN、kmemleak、slub_ debug、OOM 等内存维测特性增强,提升定位和 解决内存问题的效率。 5. cgroup 优化单线程迁移性能:消除对 Thread Group 读写信号量的依赖;引入 Time Namespace 方便容器迁移。 6. 系 高可用集群方案 HA 高可用集群软件是一个通用的高可用集群方案,致力于为用户提供业务连续性保障、数据持续保护、灾难恢复的高 可用环境。该方案利用健康检测、秒级切换等功能,可以解决软硬件或人为原因造成的单点集群故障而引起的业务中断问题。 有效确保单点系统或集群上关键任务应用程序和数据的稳定性和可靠性,保护业务系统的高可用。 HA 高可用集群方案迁移适配工作由麒麟软件主导的 HA SIG 负责完成,并且在 openEuler0 码力 | 18 页 | 1.30 MB | 1 年前3
Debian GNU/Linux 安装手册
October 14, 2021中设置以太网 MAC 地址 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.6.3 U-Boot 中的内核/Initrd/设备树的重定位问题 . . . . . . . . . . . . . . . . . . . . . . 15 ii CONTENTS 4 获取系统安装介质 16 4.1 官方的 Debian GNU/Linux 5 内核模块黑名单 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 5.4 安装过程中的故障修复 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 5.4.1 CD-ROM 的可靠性 43 6.3.8.2 重新启动系统 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 6.3.9 排除故障 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 6.3.9.1 保存安装记录0 码力 | 97 页 | 562.02 KB | 1 年前3
Debian GNU/Linux 安装手册
January 8, 2024中设置以太网 MAC 地址 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.6.3 U-Boot 中的内核/Initrd/设备树的重定位问题 . . . . . . . . . . . . . . . . . . . . . . 14 ii CONTENTS 4 获取系统安装介质 15 4.1 官方的 Debian GNU/Linux 5 内核模块黑名单 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 5.4 安装过程中的故障修复 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 5.4.1 光盘媒体的可靠性 . 42 6.3.8.2 重新启动系统 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 6.3.9 故障处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 6.3.9.1 保存安装记录0 码力 | 96 页 | 582.89 KB | 1 年前3
Debian GNU/Linux 安装手册
January 8, 2024中设置以太网 MAC 地址 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.6.4 U-Boot 中的内核/Initrd/设备树的重定位问题 . . . . . . . . . . . . . . . . . . . . . . 15 ii CONTENTS 4 获取系统安装介质 16 4.1 官方的 Debian GNU/Linux 5 内核模块黑名单 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 5.4 安装过程中的故障修复 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 5.4.1 光盘媒体的可靠性 . 44 6.3.8.2 重新启动系统 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 6.3.9 故障处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 6.3.9.1 保存安装记录0 码力 | 98 页 | 594.52 KB | 1 年前3
APM 深水区:构建连接运维与业务之桥-赵宇辰数据库没有报错 ⚫ 业务和IT系统的对应关系缺失 ⚫ 难以迅速定位问题 ⚫ IT / CIO / 业务部门:KPI、考核、管理层压力 目录 • APM现状和痛点 • 什么是APM深水区 • 技术原理 • 实际案例 IT设施规模快速扩张,IT应用数量不断增多,IT运行压力越来 越大,系统性能波动,故障影响范围难以判断,故障原因难以 定位,企业损失无法衡量,仅求确保IT系统“活着”,能持续 “运行”、稳定“运转”即可。 用户感知 快速交付 数据分析 可视化 最大价值化 面向业务和服 务的主动运营 体验 效率 效益 APM深水区:构建连接运维与业务之桥 量化业务表现 用户体验提升 风险防范、故障定位 持续迭代持续优(DevOps) 技术运营 成本 业务运营 效率价值 数据 业务-IT溯源 业务告警 业务流程监控 业务指标监控 单次功能操作的代码调用栈溯源。 单次功能操作的异常追踪。 如果解决系统用户体验和性能,对 于业务、运营、转化率、收入有什 么影响? 运维 + 业务 + AI → 数字化 智能优化业务: ⚫ 系统化关联IT数据和业务数据 ⚫ 实时/提前自动发现、量化业务瓶颈 ⚫ 一键智能定位根因,自动优化 明确结果(举例): ⚫ 提高用户体验至200ms内,可以每小时增加XXX个订单 ⚫ 主动找到被影响客户ID并补救 ⚫ 提高业务办理成功率至99.99% ⚫ 降低操作失败率为00 码力 | 24 页 | 5.87 MB | 1 年前3
openEuler 22.03-LTS 技术白皮书etMem:新增用户态 swap 功能,策略配置淘汰的冷内存交换到用户态存储,用户无感知,性能优于 内核态 swap。 • 内存 RAS 增强:内存可靠性分级技术,可以指定内核、关键进程等对内存故障敏感的数据优先使用高可靠内存,降 低宕机率,提升可靠性(技术预览特性)。 夯实云化基座 • 容器操作系统 KubeOS:云原生场景,实现 OS 容器化部署、运维,提供与业务容器一致的基于 K8s 整性不受恶意软件的破坏。 • 技术预览特性: a) 内存可靠性分级技术:通过对不同可靠性等级的内存分级管理,可以支持内核、关键进程、内存文件系统、文件缓 存使用高可靠内存,避免内存多 bit 故障引起内核复位。 b) 动态大页技术:支持对大页进行拆分和合并的功能,从而使得绑定到 memcg 的进程可以使用 1G/2M/4K 三种页。 当大页资源不足时,可以动态配置大页资源,避免系统重启,减少业务中断时间。 执行策略 openEuler 22.03-LTS 技术白皮书 17 openEuler 22.03-LTS 技术白皮书 16 06/ 云化基座 内存可靠性分级 服务器支持的内存增多时,内存硬件故障将成为不可忽视的存在。内存不可纠正的多 Bit 错误,如果影响到操作系统内 核、关键业务进程,则会导致系统复位,导致业务较长时间的中断。 另一方面,随着硬件技术的发展,服务器系统中可能会配置不同可靠性规格的内存,比如0 码力 | 17 页 | 6.52 MB | 1 年前3
共 83 条
- 1
- 2
- 3
- 4
- 5
- 6
- 9













