 使用Chaos Mesh来保障云原生系统的健壮性-周强 ● Hypothesis ○ TiDB uses Raft consensus algorithm to replicate data and provide fault-tolerance ○ Kill one TiDB instance, if the instance has a leader replica, the QPS may drop because the client can’t new leader soon to service the client’s write again ○ The QPS will be recovered ● Run experiment ○ Kill one TiDB instance randomly ● Verify ○ The QPS dropped but not recovered anymore ○ A bug is found0 码力 | 28 页 | 986.42 KB | 6 月前3 使用Chaos Mesh来保障云原生系统的健壮性-周强 ● Hypothesis ○ TiDB uses Raft consensus algorithm to replicate data and provide fault-tolerance ○ Kill one TiDB instance, if the instance has a leader replica, the QPS may drop because the client can’t new leader soon to service the client’s write again ○ The QPS will be recovered ● Run experiment ○ Kill one TiDB instance randomly ● Verify ○ The QPS dropped but not recovered anymore ○ A bug is found0 码力 | 28 页 | 986.42 KB | 6 月前3
 基于Consul的多Beats接入管控与多ES搜索编排Configs CgroupQuato Actions CMDBs IPs Dockers HostGroup CgroupQuota Cgroup CpuLimit Nice值调整 Kill机制 8 Agent管理 时序图 Agent注册 Agent启动首先向Consul获取Master服务列表, 并向Master发起Agent注册逻辑,获取agent id 配置获取 从C 资源权限管理 • 配置灰度控制发布 • 配置一致性检测 • 日志覆盖率 12 案例:如何管控整个日志数据流相关资源性能与容量? 资源限制 cgroup cpulimit 定时检测 kill nice值 beats优化 缓存设置 工作协程 设置 资源配额 调整 Agent运行时监控 日志延时分析 Beats cpu/mem管控 ES/kafka容量管理 日志覆盖率分析0 码力 | 23 页 | 6.65 MB | 1 年前3 基于Consul的多Beats接入管控与多ES搜索编排Configs CgroupQuato Actions CMDBs IPs Dockers HostGroup CgroupQuota Cgroup CpuLimit Nice值调整 Kill机制 8 Agent管理 时序图 Agent注册 Agent启动首先向Consul获取Master服务列表, 并向Master发起Agent注册逻辑,获取agent id 配置获取 从C 资源权限管理 • 配置灰度控制发布 • 配置一致性检测 • 日志覆盖率 12 案例:如何管控整个日志数据流相关资源性能与容量? 资源限制 cgroup cpulimit 定时检测 kill nice值 beats优化 缓存设置 工作协程 设置 资源配额 调整 Agent运行时监控 日志延时分析 Beats cpu/mem管控 ES/kafka容量管理 日志覆盖率分析0 码力 | 23 页 | 6.65 MB | 1 年前3
 14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧 鲁棒性 故障注入 如何选择混沌测试工具 混沌工具 混沌工具 为什么是 Chaos Mesh 为什么是 Chaos Mesh ● PodChaos: kill / fail / container/... ● NetworkChaos: delay / lose / dup / partition / … ● IOChaos: latency / fault0 码力 | 25 页 | 3.33 MB | 6 月前3 14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧 鲁棒性 故障注入 如何选择混沌测试工具 混沌工具 混沌工具 为什么是 Chaos Mesh 为什么是 Chaos Mesh ● PodChaos: kill / fail / container/... ● NetworkChaos: delay / lose / dup / partition / … ● IOChaos: latency / fault0 码力 | 25 页 | 3.33 MB | 6 月前3
共 3 条
- 1













