阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践周 涛 (广侯) 阿里巴巴 云原生应用平台 技术专家 阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT自我介绍 •嵌入式、微服务框架 •2017 年加入阿里巴巴,负责阿 里集团数十万集群节点规模化运 维管理系统的研发工作 •2019 年参与集团全面上云项目 并经历了整体架构的云原生升级 演进,稳定支撑双11峰值流量分享内容 演进,稳定支撑双11峰值流量分享内容 • 阿里全站上云 • 神龙 (what & why) • 规模化集群运维实践 • 未来工作云原生全景图阿里全站上云 • 2018年底:阿里经济体全面上云 • 2019上云第一仗:基础设施上云 • 双11顺利通过峰值流量考验神龙 X-Dragon • 全称:弹性裸金属服务器(神龙) • 阿里造“神龙”神龙 X-Dragon • 优势: • 性能 • 弹性 CI/CD k8s extended Service Mesh 安全容器 运维管控 在离线混部 额度管控 监控体系 多租隔离 上层业务 集 团 业 务运维挑战 • 规模大 • 集群规模大 (数十个集群),节点数量多 (数十万节点) • 业务线多、应用数量多、应用类型复杂 (有状态、无状态、多语言) • 基础环境复杂 • 大规模 在线、离线 混部 (运维打通) • 装机模板、OS版本0 码力 | 21 页 | 7.81 MB | 6 月前3
Best practices for building Kubernetes OperatorsBest practices for building Kubernetes Operators Patryk WasielewskiAbout me ● DevOps Consultant at Amazon Web Services (AWS) ● 6 years professional experience as DevOps / SRE / Developer ● Cloud-native json-patch/merge-patch support ○ Finalizers ○ Built-in Authz/AuthnControllers https://able8.medium.com/kubernetes-controllers-overview-b6ec086c1fbControllers ● Controller tracks at least one resource type ● backup, failover, recovery, etc.), for a software running within the Kubernetes cluster, https://www.cncf.io/blog/2022/06/15/kubernetes-operators-what-are-they-some-examples/Framework - Kubebuilder/Operator-sdkCapability0 码力 | 36 页 | 2.19 MB | 6 月前3
破解 Kubernetes 应用开发困局-王炜破解 Kubernetes 应用开发困局 实时热加载和一键 Debug 2021.08.05 王炜 2 腾讯云 CODING DevOps 高级架构师 CNCF 大使 Nocalhost 项目负责人 自我介绍 1. K8s 环境开发困局 2. 主流云原生开发方式 3. 热加载原理 4. 开发和调试演示 5. 开源共建 目录 K8s 环境开发困局 01 开发举步维艰 微服务-Docker 微服务越来越多,运行环境变复杂。服务依赖、打包、运行、迁移越来越难。 Docker 提供镜像打包的解决方案。 Docker-Kubernetes K8s 环境的开发困局 容器越来越多,服务编排、发现、稳定性监控、自愈等成为新的挑战。 Kubernetes 提供容器编排的解决方案。 6 面向运维 •开发难 概念繁多,声明式定义学习成本高。 •调试难 无法像本地一样调试,开发效率低。 流程,等待生效。 5 分钟/次 Minikube + Telepresence Minikube 拉起本地 K8s 开发环境, Telepresence 实现本地编码。 10 秒/次 云上 K8s 集群提供计算资源解决弹 性的问题,Telepresence 本地编码。 10 秒/次 主流的云原生开发方式(开发环境) 云环境 + Telepresence 工作负载声明了 env、configmap、secret、volume0 码力 | 20 页 | 3.58 MB | 9 月前3
Operator Pattern 用 Go 扩展 Kubernetes 的最佳实践会错误生成 Delete Action,执行时同样会报对象不存在错。 根据上述分析,stale cache 确实会有问题,如何补救?先看一个 stale 对象。 如下图所示,某个版本为3(gen=3)的集群(Cluster)中有一个 stale 对象,即 StatefulSet (gen=2)。 Controller-runtime 的 Reconcile 过程是一个 EDA 模型,当该 stale 对象的更新到达 {...} ⚠️ Owns + SetControllerReference 配合,保证收到所有事件 实战:build an operator from scratch 实验描述: Kubernetes 中有一个支持用 Cron 表达式运行定时任务的对象叫 CronJob,本次实验会用 Kubebuilder 构建一个 Operator,重新实现 CronJob 的 功能(实验链接)。本次实验目标:0 码力 | 21 页 | 3.06 MB | 9 月前3
Kubernetes容器应用基于Istio的灰度发布实践1 Kubernetes容器应用基于Istio的灰度发布实践 张超盟 @ Huawei Cloud BU 2018.08.25 Service Mesh Meetup #3 深圳站2 Agenda • Istio & Kubernetes • Istio & Kubernetes上的灰度发布3 An open platform to connect, manage, and secure 通信基础 服务发现 负载均衡 熔断容错 动态路由 … for (封装++) { 应用侵入--; 治理位置--; }6 微服务角度看Istio: 服务网格 服务网格控制面7 从基础设施(Kubernetes)看Istio: 服务访问 Node svca svcc svcb.n s svcc.ns svcb svcd svce svce.n s svcd.n s svcd.n Backend Pod2 Labels:app=svcb Port:9379 svca8 基础设施(Kubernetes)看Istio: 能力增强 服务部署运 维 服务治理 • 调用链追踪 • 动态路由 • 熔断限流 • 负载均衡 • 服务发现 • 扩缩容 • 运维 • 部署 Kubernetes Istio9 Istio治理的不只是微服务,只要有访问的服务,都可以被治理。10 Istio关键能力0 码力 | 34 页 | 2.64 MB | 6 月前3
在Kubernetes上部署高可用的Service Mesh监控mesh Old-school monitoringPrometheus + Kubernetes ● A time series based monitoring system. ● Borgmon for mere mortals. ● Seamless integration with kubernetes at infrastructure and app level. ● Key caching is necessary.Deploy on kubernetes - Prom + Sidecar ● https://github.com/improbable-eng/thanos/tree/master/ kube/manifests ● Run as statefulset in a kubernetes cluster. ● Sidecar and prometheus ● Sidecar exposes 10900 for gossip between thanos componentsDeploy on kubernetes - Querier ● Run as deployment in a kubernetes cluster. ● Stateless, scale as you like. ● Exposes 9090 for prometheus-like0 码力 | 35 页 | 2.98 MB | 6 月前3
sealos 以 kubernetes 为内核的云操作系统公司代表作品: Sealos 云操作系统 Laf 函数计算 FastGPT AI 知识库 Sealos 介绍 以 kubernetes 为内核的云操作系统 整个数据中心抽象成一台服务器,一切皆应用,让用云像用个人电脑一样简单! Kubernetes是云操作系统内核,整个集群是一个整体 Sealos是云操作系统发行版本 Linux发行版,如redhat Linux kernel CPU 提供最基础的核心能力 容器管理、编排调度、资源隔离 驱动层实现资源抽象 自由切换,到处运行 Sealos API Sealos CLI Desktop 裸金属 AWS 阿里云 更多······ boot 集群镜像 租户管理 应用管理 函数计算 消息队列 数据库 缓存 计算驱动 网络驱动 存储驱动 自由组装 内聚解耦 化整为零 大道至简 sealos 的能力 • 10 秒上线一个自带域名和 秒上线一个自带域名和 https 的 nginx 应用 • 其它应用同理如博客系统 低代 码平台等 java/go/python/node.js/html 轻松运行到 sealos 上 • 一个集群多个部门多个组 织共同使用 • 相互安全隔离 • 支持共享与协作 • 20 秒启动高可用 mysql/pgsql/mongo/redis 数据 库 • 写代码像写博客一样简单 • AI 自动编码,毫秒级上线,00 码力 | 29 页 | 7.64 MB | 9 月前3
开课吧基于混合云的Kubernetes平台落地实践-程亮deploy push get status rolling update • 多云多K8S多环境平台建设的初衷 多环境平台建设的初衷 01 02 03 多云多K8S多环境平台 K8S集群(多个) 管理后台 发布平台 提升资源使用率 1 多云冗余高可用 2 环境并行互不影响 3 P-2 线下多环境一期方案 ‣ 一键拉起master镜像新环境 ‣ 如何确保环境间资源互不影响 一键master镜像部署 1. 注册中心 2. Mysql Redis ES 3. 全链路微服务 4. 自动数据同步 • 一期多环境平台架构图 CDN / LB / WAF / NG K8S集群 namespace1 namespace… namespaceN service1 service2 service3 … … … … … service1 service2 发布平台 • 按需分支发布 • 多环境完全并行 • 一期方案的问题与挑战 1 2 3 多环境资源“假”隔离 Namespace隔离,共享资源 数据依赖成本高 所有存储都是独立搭建的 集群规模大,运维工作量大 环境数目越多,资源成本,维护成本越高 挑战 P-3 多环境优化实战 ‣ 为什么要多环境访问严格隔离 ‣ 如何借助多云保证有状态服务高可用 ‣ 如何做到激增流量时,全链路联动扩缩容0 码力 | 22 页 | 7.42 MB | 9 月前3
Chaos Mesh让应用与混沌在 Kubernetes 上共舞-杨可奥期 · 上 海 站 杨可奥 Chaos Mesh核心开发者 Chaos Mesh 让应用与混沌在 Kubernetes 上共舞 演讲人:杨可奥 PingCAP 云 原 生 社 区 M e e t u p 第 一 期 · 上 海 站 目录 一、混沌工程的动机 二、Kubernetes 上的混沌工程方案 —— Chaos Mesh 三、Chaos Mesh 的结构,以 NetworkChaos 要求运行时注入和恢复 4. 和内核打交道通常都是困难的! Kubernetes 上的混沌工程方案 Chaos Mesh Cloud Native ● 在 Kubernetes 上运行,被测对象也运行在 Kubernetes 上 ● 测试的最小单元是 Pod 或 Container ● 使用 Helm 一键部署 友善的接口 ● 实验是作为 Kubernetes Custom Resource 管理的 DNSChaos …. Dashboard 和 Grafana 插件 使用方案 ● 在生产环境中使用 ! ○ 限制爆炸半径 ● 在测试环境、测试集群中使用 " ● 在 CI 中使用 ○ 使用预先定义的 Github Actions ○ 使用 Kubernetes Client 创建实验 Chaos Mesh 的结构 以 NetworkChaos 为例 ● Controller 向 chaos-daemon0 码力 | 30 页 | 1.49 MB | 9 月前3
深入 Kubernetes 的无人区-蚂蚁金服双十一的调度系统深入 Kubernetes 的“无人区” —— 蚂蚁金服双十一的调度系统 曹寅2/19 一、蚂蚁金服的Kubernetes现状 二、双十一Kubernetes实践 三、展望未来迎接挑战 目 录 contents 目录3/19 一、蚂蚁金服的Kubernetes现状 Part 1:4/19 发展历程与落地规模 Part 1:蚂蚁金服的Kubernetes现状 平台研发 灰度验证 规模化落地 2018年下半年开始投 入 Kubernetes 及其配 套系统研发 2019年初于生产环境 开始灰度验证,对部分 应用做平台迁移 2019年4月完成云化环境 适配,蚂蚁金服云上基础 设施全部采用 Kubernetes 支撑618 2019年7月到双十一前完成 全站 Kubernetes 落地,超过 90% 的资源通过 Kubernetes 分配,核心链路100%落地支撑 大促。5/19 大促。5/19 大促规模 Part 1:蚂蚁金服的Kubernetes现状 数万台 服务器和ECS 超一万 单集群规模 90%+ 应用服务 数十万 应用 Pods业务 6/19 统一资源调度架构 Part 1:蚂蚁金服的Kubernetes现状 非云 资源 云化 资源 基础 服务 蚂蚁 k8s 核心 CRI Kubernetes API Server 极速交付 分时复用0 码力 | 19 页 | 2.18 MB | 6 月前3
共 117 条
- 1
- 2
- 3
- 4
- 5
- 6
- 12













