Chaos Mesh让应用与混沌在 Kubernetes 上共舞-杨可奥当前 Chaos Mesh 的 maintainer。在混沌工程的实践和实现上拥有一定经验和见 解。除了 Chaos Mesh 之外还维护有多个受欢迎的开源项目,如 pprof-rs。 云 原 生 社 区 M e e t u p 第 一 期 · 上 海 站 杨可奥 Chaos Mesh核心开发者 Chaos Mesh 让应用与混沌在 Kubernetes 上共舞 演讲人:杨可奥 PingCAP 上 海 站 目录 一、混沌工程的动机 二、Kubernetes 上的混沌工程方案 —— Chaos Mesh 三、Chaos Mesh 的结构,以 NetworkChaos 为例 四、Chaos Mesh 使用案例 混沌工程的动机 事故,任何时候都可能发生 AWS 事故,任何时候都可能发生 Github 关于混沌,我们能知道很多 我们的软件没有混沌现象! 科学的研究方法 ● 作出假设 ● 进行尝试和实验 ● 观察现象 ● 分析和总结 Chaos Engineering 混沌工程正在受到重视 混沌工程正在受到重视 混沌实验?听上去很简单 混沌实验?听上去很简单 1. 5 分钟入门混沌工程 —— 脚本随机杀进程 2. 10 分钟入门混沌工程 —— 脚本随机杀 Pod 3. … 4. 那网络故障呢?磁盘故障呢?恢复呢?如何控制作用范围? 这是一件复杂的事0 码力 | 30 页 | 1.49 MB | 9 月前3
14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧 目录 网易伏羲私有云简介 为什么混沌测试 什么是混沌测试 如何选择混沌测试工具 为什么是 Chaos Mesh Chaos Mesh 在网易伏羲的实践 网易伏羲私有云简介 网易伏羲私有云简介 AI 模型 支撑游戏业务 云游戏 为什么混沌测试 为什么混沌测试 为什么混沌测试 理想下,系统用不 宕机,100%可用 比如机房突然断电 比如机房突然断电 事故突然的到来 为什么混沌测试 通用指标 阶段性进阶衡量 标准 指标 量化 什么是混沌测试 什么是混沌测试 混沌工程旨在将故障扼杀在襁褓之中,也就是在故障造成中断之前将它们识别出来。通过主动制 造故障,测试系统在各种压力下的行为,识别并修复故障问题,避免造成严重后果。 混沌工程将预想的事情和实际发生的事情进行对比,通过“有意识搞破坏”来提升系统稳定性。 统稳定性。 鲁棒性 故障注入 如何选择混沌测试工具 混沌工具 混沌工具 为什么是 Chaos Mesh 为什么是 Chaos Mesh ● PodChaos: kill / fail / container/... ● NetworkChaos: delay / lose / dup / partition / … ● IOChaos: latency0 码力 | 25 页 | 3.33 MB | 6 月前3
全球开源发展态势洞察(2023年第八期)GitHub GitHub GitHub GitHub Apache 2.0 Apache 2.0 Apache 2.0 / 公司项目 CNCF CNCF 公司项目 分布式HTAP 数据库 云原生 混沌工程平台 开源软件洞察工具 分布式Key-Value 数据库 2022年开源 2019年开源 2018年开源 / TiDB TiFlash Chaos Mesh ossinsight TiKV 2020年 9月,CNCF宣布TiKV正式从CNCF毕业。 Chaos Mesh :2019年,PingCAP在GitHub上正式开源Chaos Mesh。Chaos Mesh是一个开源的云原生混沌工程平台,提供丰 富的故障模拟类型,具有强大的故障场景编排能力,方便用户在 开发测试中以及生产环境中模拟现实世界中可能出现的各类异常, 帮助用户发现系统潜在的问题。Chaos Mesh基于Kubernetes Definition) 构建,根据不同的故障类型 定义多个CRD类型,并为不同的CRD对象实现单独的Controller 以管理不同的混沌实验。Chaos Mesh提供完善的可视化操作, 旨在降低用户进行混沌工程的门槛。用户可以方便地在Web UI界 面上设计自己的混沌场景,以及监控混沌实验的运行状态。 图 ChaosMesh客户 全球开源态势洞察|第十期 12 全球开源态势洞察|第十期 13 开源商业模式0 码力 | 22 页 | 1.99 MB | 1 年前3
Curve质量监控与运维 - 网易数帆测试 混沌测试 (每周一次) CI测试(编译、静态检 查、单元测试、集成测 试、覆盖率80%卡点) 邮件通知 Curve所有代码均在github托管。新 代码需要通过CI测试和code review才 能合入master分支,确保新合入代码 的功能、正确性、规范性等都有基本 保障;而每日运行的dailybuild测试在 CI测试基础上增加了异常自动化测试 和混沌测试,确保master分支代码的 从测试粒度看,测试可以分为单元测试、集成测试、系统测试; 从测试角度看,测试可以分为常规测试、性能测试、异常测试、稳定性测试、混沌测试,等等 单元测试 1300+用例 行覆盖80%+,分支覆盖70%+ 集成测试 Given When Then 设计方法 500+用例 异常测试 40+自动化用例 混沌测试 20轮自动化随机故障注入 12/33单元测试 单元测试是软件开发的过程中最基本的测试, 异常测试,在正常流程中注入一种软硬件异常; 混沌测试,大压力多级故障(随机组合软硬件异常)。 在系统测试过程中,我们尽可能将所有用例自动化,其优点是: 大幅降低了测试回归成本,加快了测试进度; 可以对代码进行足够频繁的测试,有利于提高代码质量; 容易发现隐藏的问题,手工测试无法做到频繁触发 测试用例可以持续积累,成为代码质量的。 目前Curve的 异常测试以及混沌测试 均实现了自动化。 15/33测试用例的编写方法0 码力 | 33 页 | 2.64 MB | 6 月前3
04. GraphQL in Chaos Mesh 2.0 - 李晨曦Kubernetes 上的云原生混沌工程平台 ● 最初目标是作为 TiDB 的内部测试平台 ● 提供对 Pod 或者具体容器的错误注入, 包括网络、系统 IO、内核以及一些应用层注入 chaos-mesh.org github.com/chaos-mesh Chaos Mesh 是什么 我们的目标 ● 建立一个完全闭环的云原生混沌工程平台 ● 让混沌工程变得更易用 问题与解决方案 Target Pods Status Logs Event Others Mounts Processes ipset iptables Pid Command Fds 集群中的状态 在实际混沌实验过程中,可能会出现注入的错误不符合预期,甚至完全没有效果的情况。能否高效 地获取各种状态则决定了故障诊断的效率。 集群状态大致可以分为两类,主要分类依据是能否通过 kubernetes API0 码力 | 30 页 | 1.29 MB | 1 年前3
Moonshot AI 介绍都”,模型对“北”这个字能给出99%的概率。同时,如果我今天让它写⼀本⼩说,那它可能下⼀个 词的概率分布就会很均匀。概率其实是⼀个通⽤的表⽰⽅式。本质上这个世界上有⼤量的熵,抓住确 定性的东西,让本⾝是混沌的东西继续混沌。 通往AGI的话,long-context会是⼀个很重要的点。所有问题都是long-context的问题⸺历史上所 有的架构演进本质上都是在提升有效的contextle 此外,其实⽆损压缩就是在⼀⽚混沌中学习确定性。⼀个极端的例⼦是等差数列,给定前两个数,接 下来每⼀个数都是确定的,不存在混沌,所以⼀个完美的模型可以还原整个数列。但真实世界的很多 数据都存在噪声,我们需要过滤掉这些噪声,让模型只学能学习到的内容。在这个过程中,对于那些 不确定的可能性,也要分配⾜够的概率。举个例⼦,如果要⽣成⼀张图⽚,那么它的loss会⽐⽣成⼀ 段⽂字更⾼,这是因为图⽚包含了更多的混沌和信息0 码力 | 74 页 | 1.64 MB | 1 年前3
微服务环境下的系统治理与容错同步调用下-无线程池隔离 同步调用下-线程池隔离实现方法 快速失败-超时 快速失败-时间窗口 快速失败-超时重试次数 区分部署和上线 常规系统保障流程 没有不出问题的系统 什么是混沌工程 混沌工程 故障注入 故障测试的区别 总结 工具 知识 经验 参考书籍0 码力 | 45 页 | 16.09 MB | 1 年前3
从Mesos到Kuberneteschange 流量镜像 一键压测 接入层(TCPCopy) 支持流量放大、缩小 一键批处理压测 服务网格 智能负载均衡 流量路由策略 服务保护机制 混沌军团 随机关闭生产环境中的实例,模拟服 务故障 引入人为延时,模拟服务降级 寻找未使用、可被清理的资源 寻找不符合预定义最佳实践的服务 发现和跟踪异常修改,排查安全问题0 码力 | 30 页 | 2.12 MB | 1 年前3
百度APP基于Istio实现基础架构升级 - lightning talk - MichaelXu集中化管理,甚至做到自动决策 Ø 精细故障能力(异常query、注入延迟等)期望能够标准化、低成本跨产品线复制 Ø 百度APP架构缺少上下游模块视图和流量视图,黄金指标不足,导致容量管理压测效率低、混沌工程实施成 本高、故障定位成本高。 #IstioCon 目标 l 服务治理策略平台化 联合公司内部,通过合作共建方式实现完整的Service Mesh架构,提升架构策略灵活性,缩 减服务治理迭代周期,降低服务治理研发成本。0 码力 | 9 页 | 2.20 MB | 1 年前3
KubeCon2020/微服务技术与实践论坛/Spring Cloud Alibaba 在 Kubernetes 下的微服务治理最佳实践-方剑https://tanzu.vmware.com/content/blog/ monoliths-to-microservices 微服务拆分原则 DevOps 服务框架 Dubbo 可观测性 混沌工程 服务治理 Spring Cloud 多语言微服务 API管理 服务压测 分布式事务 分布式调度 API网关 服务注册发现 负载均衡 服务配置 无损下线 服务容错 服务路由 服务鉴权 限流降级0 码力 | 27 页 | 7.10 MB | 1 年前3
共 27 条
- 1
- 2
- 3













