高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰KubeBrain 字节跳动高性能 K8s 元信息存储 许辰 字节跳动资深研发工程师 许 辰 字节跳动基础架构工程师 本科和硕士毕业于北京大学计算机系 负责大规模 Kubernetes 系统的构建和优化 KubeBrain/ KubeGateway/ KubeZoo 等多个项目的发起人 • 背景介绍 • 设计思路 • 性能优化 • 落地效果 • 未来演进 背景 背景 • Kubernetes 规模增大 10 倍以上 公司业务快速发展 存储、大数据、机器学习等场景云原生化 • 新场景对 Kubernetes 性能要求更高 离线场景,Pod 生命周期短、变更频率高 如何扩展 Kubernetes 集群 单个集群规模垂直扩展 多个集群横向扩展 降低运维管理成本 减少资源碎片 提高资源利用率 Kubernetes 的架构特点 中心化架构 所有组件通过 apisever 交互 随着规模增大存储系统成为瓶颈 etcd 存在性能问题 apiserver etcd K8s 各组件 apiserver 元信息存储 etcd etcd 存在的问题 自研元信息存储 调优 etcd 参数 按照对象拆分 etcd 设计新的元信息存储 … 如何解决存储瓶颈? KubeBrain 1. 大脑 2. 谐音科比 Kobe0 码力 | 60 页 | 8.02 MB | 1 年前3
运维上海2017-分布式数据库系统TiDB在Kubernetes平台的自动化运维实践-邓栓0 码力 | 32 页 | 3.47 MB | 1 年前3
k8s操作手册 2.3#创建service资源 metadata: name: svc-nginx-web1 #其他pod可直接访问此名称:servicePort,如 curl -kv h�p://svc-nginx-web1:2380/ spec: selector: #通过标签选择目标pod lbname: lbvalue-nginx-web1 内 存使用量限制,任何违反LimitRange定义的资源使用最大用量的请求都将被直接 拒绝 LimitRange对pod和容器的资源限制为cpu和内存使用量 LimitRange对PVC的资源限制为存储空间的使用量 资源限额只对新创建的资源生效,对于已经存在的对象不产生任何限制 limitrange和resourcequota都是有命名空间之分的 # cat > limitRange-testxx persistentvolumeclaims: "2" #可以创建的pvc总数 requests.storage: 20Gi #可以创建的pvc存储需求存储空间总量限额 EOF # kubectl apply -f resourceQuota-testxx.yaml ★第7章、pod控制器 pod控制器是由kube-c0 码力 | 126 页 | 4.33 MB | 1 年前3
基于Kubernetes构建容器云平台的实践
- UCloud优刻得实验室负责⼈ 叶理灯链路路跟踪 负载均衡 ⾃自动容灾 持续集成 持续部署 灰度发布 服务注册/发现 关系数据库 KV存储 对象存储 块存储 DNS 消息队列列 API- Gateway 镜像仓库 统⼀一代码管理理 统⼀一编程框架 统⼀一通讯协议 统⼀一部署环境 计算平台/KUN 公共服务 存储平台 Think in Cloud . 北北京 基于RBAC实现 账号管理理隔离 01 IPv6 Pod与集群外部互通 其他⽅方案 • Calico/Flannel: 基于 BGP、IPIP、VXLAN 或⽤用户态程序, 每个节点需要部署 Agent程 序, 数据需要进⾏行行单独的存储(etcd),整 体上⽐比较复杂、⽽而复杂往往和可靠性成反⽐比 Dual Stack IPv4 IPv6 CIDR /64 --- IPv4 --- IPv6 集群外 服务器器 Containers Think in Cloud . 北北京 监控系统⽅方案 • 监控基于 Prometheus 构建,Prometheus 部署于 K8s 集群中,使⽤用 HostPath 存储数据; • Metrics 采集: A. 采集 apiserver、controller-manager、scheduler、etcd、kube-proxy、Kubelet 等组件提供的 metrics0 码力 | 30 页 | 3.52 MB | 1 年前3
云计算白皮书来帮助公共和私营部门进行数字化转型。该战略基于三大支柱:“可 云计算白皮书(2023 年) 2 信云”认证、“云中心”政策和工业战略。2021 年 6 月,意大利政府 宣布了云计算的国家战略,创建存储所有公共部门应用程序和公民 数据的国家级云计算系统,并将相关数据向“国家云”转移。 英国和澳大利亚政府发布国家战略,深度挖掘云计算的产业赋 能价值。在政府云战略(G-Cloud)基础上,英国国防部在 Serverless(服务器无感知)、低/无代码为代表的技术能够 屏蔽复杂的底层基础设施,让用户以最低学习成本、最小使用代价 最大化释放云的生产力,实现快速创新。AWS 贯彻全面 Serverless 化战略,提供计算、存储、数据库等全领域的 Serverless 服务。微软 发力低/无代码领域,其发布的 Power Platform 已经与 Office 365、 Dynamics 365 以及 Azure 三大生态充分打通,形成完整的技术生态。 市场数据不明确的领域,只发布头部企业整体情况,不做具体排名。 3 因为 IaaS 和 CDN 是两种业态,需要分别获得互联网资源协作服务业务牌照和内容分发网络业务牌照, 所有 IaaS 不包括 CDN 收入,只统计计算、存储、网络等基础资源服务收入。 云计算白皮书(2023 年) 15 来源:中国信息通信研究院,2023 年 5 月 图 6 2022 年中国公有云 IaaS 厂商市场占比 (三)云计算技术不断推陈出新,满足多样性场景需求0 码力 | 47 页 | 1.22 MB | 1 年前3
Kubernetes全栈容器技术剖析华为云应用服务:让企业应用上云更简单,运行更高效 计算(ECS/BMS/ARM) 存储(EVS/OBS/SFS) 网络(VPC/EIP) 开源原生 商业增强:控制面HA、跨AZ高可用、滚动升级、裸金属容器 云容器引擎 CCE 微服务引擎 CSE 开源原生 企业级 中间件 分布式 缓存 DCS 分布式 消息 DMS 分布式 数据库 DDM 应用编排引擎 AOS App/PaaS/IaaS 限制,增加ARM64支持,运维增强,容器重启策略 OCI & Docker 社区 CNCF/OCI基金会的初创会员、白金会员, K8S TOC 成员,12个 Maintainer 8 计算(ECS/BMS/ARM) 存储(EVS/OBS/SFS) 网络(VPC/EIP) 多样的生态接入 • 支持多语言多框架服务接入 • 支持第三方模板和镜像快速部署 完全开放的原生平台 • 紧跟Kubernetes和Docker社区,迅速同步最新版本 通过跨可用区高可用和控制面HA提升业务可靠性 • 通过物理共享集群提供敏捷可靠的容器适应业务多样性 高性能基础设施 • 支持多种异构IaaS:虚拟机、物理机、ARM服务器 • 支持多种存储:云硬盘、对象存储、文件存储 • 对接公私网络:虚拟私有网络、EIP公网 容器引擎CCE:基于开源Kubernetes和Docker技术的企业级容器服务 开源原生平台 商业增强特性 控制面 HA 跨AZ高可用0 码力 | 26 页 | 3.29 MB | 1 年前3
sealos 以 kubernetes 为内核的云操作系统Sealos API Sealos CLI Desktop 裸金属 AWS 阿里云 更多······ boot 集群镜像 租户管理 应用管理 函数计算 消息队列 数据库 缓存 计算驱动 网络驱动 存储驱动 自由组装 内聚解耦 化整为零 大道至简 sealos 的能力 • 10 秒上线一个自带域名和 https 的 nginx 应用 • 其它应用同理如博客系统 低代 码平台等 Mysql/pgsql/mongo CNI CRI CSI DNS Backup Restore 交付类场景 01 整个集群或者分布式应用整 体打包,一键交付 标准化交付产物,而不是靠 操作文档协作 交付者无需关心业务逻辑,一条命令 完成任意分布式高可用应用交付 支持完全离线场景,小白操 作 20min 自动化完成 全国多个 02 交付环境: 各大公有云 不同版本liux发行版 系统 日至 系统 数据库 消息队列 对象存储 计算 储存 网络 kubernetes SaaS服务 30min 1人 一键打包 整体交付 一次建构 到处运行 使用sealos 技术实现 行业 痛点 在公网不可信的环境中提供多 租户共享一个kubernetes集群 的能力, ,如etcd存储, k8s apiserver,对象存储,数 据库等 技术 方案 优势 利用 等技术可做到计算安0 码力 | 29 页 | 7.64 MB | 9 月前3
第29 期| 2023 年9 月- 技术雷达如何继续以有效协作为重点,不断突破界限,在一个更加分散和动态的环境中进行工作。一些团队利用新的协 作工具不断提出创新解决方案。其他团队则继续调整和改进现有的面对面实践,例如实时结对编程或集体编程、 分布式工作坊(例如 远程事件风暴)以及异步和同步沟通。远程工作提供了许多好处(包括更多样化的人才储 备),但面对面交流的价值是显而易见的。团队不应中断重要的反馈循环,并且需要意识到在转向远程工作时所 做的取舍。 Connect(OIDC)等联合身份机制对流水线进行 身份验证,以访问云服务。这一重要的技术仍未被充分利用在 GitHub Actions 中,因此推荐 OIDC for GitHub Actions。通过这种方式,可以避免存储长期的访问令牌来访问云资源,同时确保流水线无法直接访问机密信息。 然而,请务必谨慎地限制访问权限,以确保操作以最低权限运行。 8. 使用 Terraform 创建监控和告警 试验 基础设施及代码(IaC) 工具的团队需要重视这类风险。 团队可以通过对依赖进行健康检查化解包幻觉风险:在选择依赖之前查看它的创建日期、下载数量、github 评论 及星标数、贡献者数量、活动历史记录等。一些依赖健康检查可以在包存储仓库和 GitHub 上执行,而像 deps. dev 和 Snyk advisor 等工具也可以提供帮助。尽管依赖健康不是一项新技术,但随着团队在软件开发过程中越 来越多地尝试 GenAI 工具,该实践正在获得新的关注。0 码力 | 43 页 | 2.76 MB | 1 年前3
运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智由于采用系统当前的内核,Container会启动加载更快,更 轻量,并且更省资源。 Container Image 用来将需要容器化的应用程序及其环境进行打包后存储的镜像。 • 通常会有一个 Image 管理仓库来存储 Image。 • 同一个 Image 会有版本记录。 • 只包含软件环境的配置 • 硬件配置需要运行时去指定 OCI (Open Container 基本概念 - Pod • Pod 是 Kubernetes 中最小 的资源 • 一个 Pod 包含一个或多个 Container • Pod 内的 Containers 可以 共享网络和存储 Kubernetes 基本概念 - Service • Service 是一组 Pod 协同工作。 • 有时也被称为微服务。 • 可以给 Service 添加标签 (label 来标识其业务属性。 pod • 可以决定同时可以多少个相同的pod在同时运行 • 维护pod的状态 Kubernetes 基本概念 – Storage(volume • 达到非易失存储的方式 • 可以视作一个目录 • 将存储挂在到 Pod 及其内 部 containers 的一种方式。 快速部署一个应用 - kubectl • kubectl 是一个命令行操作 Kubernetes 的工具,可以在0 码力 | 77 页 | 14.48 MB | 1 年前3
Alluxio 助力 Kubernetes, 加速云端深度学习40000 P100 (1GPU) P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练速度(images/second) 分布式训练/GPU硬件升级加速明显 模拟数据训练时间 108 15.12 4.62 3.39 1 0 20 40 60 80 100 120 P100 (1GPU) P100 (8GPU) 强大的算力需要匹配的I/O吞吐 2.计算存储分离导致I/O延迟 3.单机缓存无法满足海量数据加速 9993.6 3189.6 0 2000 4000 6000 8000 10000 12000 Synthetic ESSD云盘 PL2 RestNet50 模型训练速度 (images/second) 云盘 Alluxio - 分布式缓存的领导者 开源项目由李浩源博士(All OSS Driver Web Driver Alibaba Cloud OSS Alluxio 服务器 Alluxio 服务器 大数据查询 大数据ETL 模型训练 Alluxio核心功能一:分布式数据缓存 Alluxio 服务器 A B /path1/file1 /path2/file2 C A B C A Alluxio 服务器 Alluxio 服务器 大数据查询 大数据ETL0 码力 | 22 页 | 11.79 MB | 1 年前3
共 37 条
- 1
- 2
- 3
- 4













