 QCon北京2017/支撑海量业务的互联网架构/知乎基于 Kubernetes 的 Kafka 平台探索和实践⽩白瑜庆 ⾃自我介绍 知乎技术平台⼯工程师 负责 Kafka 和数据库平台 曾在新浪和⾦金金⼭山云负责镜像流量量分析项⽬目 纲要 Kafka 在知乎的应⽤用 为什什么做基于 Kubernetes 的 Kafka 平台 基于 Kubernetes 的 Kafka 平台实践 Apache Kafka 分布式的流式数据平台 ⾼高吞吐 容错性 Broker Broker Broker Broker Producer Consumer Topic Topic Topic Producer Consumer 平台承载知乎业务⽇日志、数据传输和消息队列列服务 平台线上稳定运⾏行行 基于 Kubernetes 的 Kafka 集群 13 个, 1000+ Topic 知乎技术平台重要的组件 Kafka 在知乎的应⽤用 平台概览 Kubernetes 多 Kafka 集群 监控 Kafka on Kubernetes 设计 Kafka 容器器 • 内存、CPU、⽹网络和存储 调度 Kafka 容器器 内存 CPU 和⽹网络 内存 和 CPU • 依照集群类型测试基准数据 容器器⽹网络 • 容器器采⽤用独⽴立的内⽹网 IP ⽅方案 存储 容器器挂载服务本地⽬目录 Kafka ⾼高性能 • ⽂文件系统缓存 Kafka ⽇日志落盘 集群概览 如何调度 Kafka0 码力 | 34 页 | 2.64 MB | 1 年前3 QCon北京2017/支撑海量业务的互联网架构/知乎基于 Kubernetes 的 Kafka 平台探索和实践⽩白瑜庆 ⾃自我介绍 知乎技术平台⼯工程师 负责 Kafka 和数据库平台 曾在新浪和⾦金金⼭山云负责镜像流量量分析项⽬目 纲要 Kafka 在知乎的应⽤用 为什什么做基于 Kubernetes 的 Kafka 平台 基于 Kubernetes 的 Kafka 平台实践 Apache Kafka 分布式的流式数据平台 ⾼高吞吐 容错性 Broker Broker Broker Broker Producer Consumer Topic Topic Topic Producer Consumer 平台承载知乎业务⽇日志、数据传输和消息队列列服务 平台线上稳定运⾏行行 基于 Kubernetes 的 Kafka 集群 13 个, 1000+ Topic 知乎技术平台重要的组件 Kafka 在知乎的应⽤用 平台概览 Kubernetes 多 Kafka 集群 监控 Kafka on Kubernetes 设计 Kafka 容器器 • 内存、CPU、⽹网络和存储 调度 Kafka 容器器 内存 CPU 和⽹网络 内存 和 CPU • 依照集群类型测试基准数据 容器器⽹网络 • 容器器采⽤用独⽴立的内⽹网 IP ⽅方案 存储 容器器挂载服务本地⽬目录 Kafka ⾼高性能 • ⽂文件系统缓存 Kafka ⽇日志落盘 集群概览 如何调度 Kafka0 码力 | 34 页 | 2.64 MB | 1 年前3
 全球架构师峰会2019北京/大数据/Kubernetes 运行大数据工作负载的探索和实践&mdashKubernetes 运行大数据工作负 载的探索和实践 Leibo Wang(wang.platform@Hotmail.com) Huawei CloudBU Principal Engineer 王雷博 Principal Software Engineer • Huawei(Now) - Cloud Native batch system (Volcano) development0 码力 | 25 页 | 3.84 MB | 1 年前3 全球架构师峰会2019北京/大数据/Kubernetes 运行大数据工作负载的探索和实践&mdashKubernetes 运行大数据工作负 载的探索和实践 Leibo Wang(wang.platform@Hotmail.com) Huawei CloudBU Principal Engineer 王雷博 Principal Software Engineer • Huawei(Now) - Cloud Native batch system (Volcano) development0 码力 | 25 页 | 3.84 MB | 1 年前3
 高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰等多个项目的发起人 • 背景介绍 • 设计思路 • 性能优化 • 落地效果 • 未来演进 背景 • Kubernetes 规模增大 10 倍以上  公司业务快速发展  存储、大数据、机器学习等场景云原生化 • 新场景对 Kubernetes 性能要求更高  离线场景,Pod 生命周期短、变更频率高 如何扩展 Kubernetes 集群 单个集群规模垂直扩展 多个集群横向扩展 事务 • 支持 CAS • 支持快照读 • 高性能 存储层 - 数据格式 etcd KubeBrain 能否使用类似的格式? 1. 否 2. 底层存储引擎全局有序,有写热点那问题 Etcd 以 Revision 为 Key 内存 Btree 索引维护 key 和 revision 的映射关系 存储层 - 数据格式 KubeBrain 逻辑层 逻辑层 – 写 逻辑层 – Watch(1) 仅主节点负责写入和事件生成 2. 从节点只读 逻辑层 – Watch(3) • Master 内存中保留最近写入的 事件 • 写入滑动窗口记录并发写操作的 结果 • 消费滑动窗口中的数据实现有序 的 Event 推送 • 当前消费的最大位置为 Brain 层 的 Committed Index,与 快照 读有关 逻辑层 – 单 Key 读 逻辑层 – Range 读 逻辑层0 码力 | 60 页 | 8.02 MB | 1 年前3 高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰等多个项目的发起人 • 背景介绍 • 设计思路 • 性能优化 • 落地效果 • 未来演进 背景 • Kubernetes 规模增大 10 倍以上  公司业务快速发展  存储、大数据、机器学习等场景云原生化 • 新场景对 Kubernetes 性能要求更高  离线场景,Pod 生命周期短、变更频率高 如何扩展 Kubernetes 集群 单个集群规模垂直扩展 多个集群横向扩展 事务 • 支持 CAS • 支持快照读 • 高性能 存储层 - 数据格式 etcd KubeBrain 能否使用类似的格式? 1. 否 2. 底层存储引擎全局有序,有写热点那问题 Etcd 以 Revision 为 Key 内存 Btree 索引维护 key 和 revision 的映射关系 存储层 - 数据格式 KubeBrain 逻辑层 逻辑层 – 写 逻辑层 – Watch(1) 仅主节点负责写入和事件生成 2. 从节点只读 逻辑层 – Watch(3) • Master 内存中保留最近写入的 事件 • 写入滑动窗口记录并发写操作的 结果 • 消费滑动窗口中的数据实现有序 的 Event 推送 • 当前消费的最大位置为 Brain 层 的 Committed Index,与 快照 读有关 逻辑层 – 单 Key 读 逻辑层 – Range 读 逻辑层0 码力 | 60 页 | 8.02 MB | 1 年前3
 运维上海2017-分布式数据库系统TiDB在Kubernetes平台的自动化运维实践-邓栓0 码力 | 32 页 | 3.47 MB | 1 年前3 运维上海2017-分布式数据库系统TiDB在Kubernetes平台的自动化运维实践-邓栓0 码力 | 32 页 | 3.47 MB | 1 年前3
 DaoCloud Enterprise 5.0
产品介绍帮助您洞察集群、节点、应用和服务的详细指标,并通 过动态仪表盘和拓扑大图可视化掌握应用健康状态。 DCE 5.0 原生支持 DevOps 开发运维模式,可以实现应用交付的全流程标准化 和自动化,并集成各类精选数据库和中间件,使运维治理更加高效。各个产品 模块独立解耦,支持灵活升级,对业务没有影响,并且能够与众多云原生生态 产品对接,提供完整的解决方案体系。 它经过了近千家行业客户的生产场景检 验,构建了坚实 2023 DaoCloud 第 4 页 九大能力 DCE 5.0 云原生操作系统提供了 9 大能力,自由搭配各种模块,可以应对海量 应用场景。 这些模块就像乐高搭积木一样,糅合社区最优秀的几十种开源技术,经过众多 辩证选型、攻坚克难、编码调试、海量测试,“十年磨一剑,一朝试锋芒,全新 搭建的新一代容器化平台能够满足企业上云的各类场景需求。 多云编排 支持多云和混合云的统一集中 、信创异构 中间件服务 专为有状态应用设计的云原生本地存储能力,满足中间件高 I/O 的存储需求,提升运 维管理效率。精选各类数据库、分布式消息和日志检索等中间件,提供多租户、部 署、观测、备份、运维操作等全生命周期的中 间件管理能力,实现数据服务的自助化 申请、弹性扩展、高并发处理和稳定高可用。 涉及的模块:全局管理、容器管理、云原生网络、云原生存储、精选中间件 版权 © 20230 码力 | 18 页 | 1.32 MB | 1 年前3 DaoCloud Enterprise 5.0
产品介绍帮助您洞察集群、节点、应用和服务的详细指标,并通 过动态仪表盘和拓扑大图可视化掌握应用健康状态。 DCE 5.0 原生支持 DevOps 开发运维模式,可以实现应用交付的全流程标准化 和自动化,并集成各类精选数据库和中间件,使运维治理更加高效。各个产品 模块独立解耦,支持灵活升级,对业务没有影响,并且能够与众多云原生生态 产品对接,提供完整的解决方案体系。 它经过了近千家行业客户的生产场景检 验,构建了坚实 2023 DaoCloud 第 4 页 九大能力 DCE 5.0 云原生操作系统提供了 9 大能力,自由搭配各种模块,可以应对海量 应用场景。 这些模块就像乐高搭积木一样,糅合社区最优秀的几十种开源技术,经过众多 辩证选型、攻坚克难、编码调试、海量测试,“十年磨一剑,一朝试锋芒,全新 搭建的新一代容器化平台能够满足企业上云的各类场景需求。 多云编排 支持多云和混合云的统一集中 、信创异构 中间件服务 专为有状态应用设计的云原生本地存储能力,满足中间件高 I/O 的存储需求,提升运 维管理效率。精选各类数据库、分布式消息和日志检索等中间件,提供多租户、部 署、观测、备份、运维操作等全生命周期的中 间件管理能力,实现数据服务的自助化 申请、弹性扩展、高并发处理和稳定高可用。 涉及的模块:全局管理、容器管理、云原生网络、云原生存储、精选中间件 版权 © 20230 码力 | 18 页 | 1.32 MB | 1 年前3
 Kubernetes全栈容器技术剖析商业增强:控制面HA、跨AZ高可用、滚动升级、裸金属容器 云容器引擎 CCE 微服务引擎 CSE 开源原生 企业级 中间件 分布式 缓存 DCS 分布式 消息 DMS 分布式 数据库 DDM 应用编排引擎 AOS App/PaaS/IaaS 资源一键式创建 应用运维 AOM 应用性能管理 APM 应用拓扑 调用链 SLA指标 日志关联分析 异常预警 倍,裸金属容器应用的吞吐量相对于虚机 容器吞吐量增长1倍,但是cpu资源的占用 却只多出60%左右,同时裸金属容器的进 程占用的内存减少10%。 11 国内首发Windows容器服务:帮助企业实现海量Windows应用轻松容器 化上云 根据第三方咨询公司统计,大约有80%以上的企业现有系统仍是通 过Windows Server部署运维在服务器上,统计显示Windows Server在x86伺服器中的市占率高达6成。 序,人体健康监测,大数据分析等生物健康产品及解决 方案。 挑战: • 全基因测序原始数据约100GB/人,数据分析性能要 求高 • 测序需求多样,测序流程难以灵活自定义 基于容器的生物信息分析平台 • 结合FPGA加速计算可进一 步压缩成本 基因测序(测序仪) 数据上传 源数据 存储 基因拼接/对比/注释 数据 分类 存储 核心数据 取回本地 自动化部署 数据库 SFS/OBS0 码力 | 26 页 | 3.29 MB | 1 年前3 Kubernetes全栈容器技术剖析商业增强:控制面HA、跨AZ高可用、滚动升级、裸金属容器 云容器引擎 CCE 微服务引擎 CSE 开源原生 企业级 中间件 分布式 缓存 DCS 分布式 消息 DMS 分布式 数据库 DDM 应用编排引擎 AOS App/PaaS/IaaS 资源一键式创建 应用运维 AOM 应用性能管理 APM 应用拓扑 调用链 SLA指标 日志关联分析 异常预警 倍,裸金属容器应用的吞吐量相对于虚机 容器吞吐量增长1倍,但是cpu资源的占用 却只多出60%左右,同时裸金属容器的进 程占用的内存减少10%。 11 国内首发Windows容器服务:帮助企业实现海量Windows应用轻松容器 化上云 根据第三方咨询公司统计,大约有80%以上的企业现有系统仍是通 过Windows Server部署运维在服务器上,统计显示Windows Server在x86伺服器中的市占率高达6成。 序,人体健康监测,大数据分析等生物健康产品及解决 方案。 挑战: • 全基因测序原始数据约100GB/人,数据分析性能要 求高 • 测序需求多样,测序流程难以灵活自定义 基于容器的生物信息分析平台 • 结合FPGA加速计算可进一 步压缩成本 基因测序(测序仪) 数据上传 源数据 存储 基因拼接/对比/注释 数据 分类 存储 核心数据 取回本地 自动化部署 数据库 SFS/OBS0 码力 | 26 页 | 3.29 MB | 1 年前3
 Alluxio 助力 Kubernetes, 加速云端深度学习Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌 Alluxio 创始成员 背景 硬件 软件 数据 容器化的基础架构 人工智能发展的驱动力 模拟数据训练速度 311.6 7323.84 9993.6 33884.8 0 5000 10000 15000 20000 25000 30000 35000 40000 P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练速度(images/second) 分布式训练/GPU硬件升级加速明显 模拟数据训练时间 108 15.12 4.62 3.39 1 0 20 40 60 80 100 120 P100 (1GPU) P100 (8GPU) P100 (32GPU) V100 8卡 : 157.9元/小时 x 4 = 631.6 元 P100 1卡:12.78 元/小时 x108 = 1380.24 元 数据访问的新挑战 1.强大的算力需要匹配的I/O吞吐 2.计算存储分离导致I/O延迟 3.单机缓存无法满足海量数据加速 9993.6 3189.6 0 2000 4000 6000 8000 10000 12000 Synthetic ESSD云盘0 码力 | 22 页 | 11.79 MB | 1 年前3 Alluxio 助力 Kubernetes, 加速云端深度学习Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌 Alluxio 创始成员 背景 硬件 软件 数据 容器化的基础架构 人工智能发展的驱动力 模拟数据训练速度 311.6 7323.84 9993.6 33884.8 0 5000 10000 15000 20000 25000 30000 35000 40000 P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练速度(images/second) 分布式训练/GPU硬件升级加速明显 模拟数据训练时间 108 15.12 4.62 3.39 1 0 20 40 60 80 100 120 P100 (1GPU) P100 (8GPU) P100 (32GPU) V100 8卡 : 157.9元/小时 x 4 = 631.6 元 P100 1卡:12.78 元/小时 x108 = 1380.24 元 数据访问的新挑战 1.强大的算力需要匹配的I/O吞吐 2.计算存储分离导致I/O延迟 3.单机缓存无法满足海量数据加速 9993.6 3189.6 0 2000 4000 6000 8000 10000 12000 Synthetic ESSD云盘0 码力 | 22 页 | 11.79 MB | 1 年前3
 腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅年加入腾讯,现任数据平台部容器云开发组组长。 拥有多年分布式系统研发经验,对大数据、云计算、容器等有深刻理解。从事过自研容 器云平台,大数据云平台,以及面向公司内外的通用容器云平台,从无到有,从自研到 开源生态,从公司内部平台到同时面向To B市场。目前专注于容器云平台领域,负责腾 讯企业级容器云平台 。 2009年-2013年 2014年-今 2015年-今 自研容器云平台 腾讯大数据云 通用云平台 计算节点挂掉:跨机迁移 • 健康探针 ① 存活探针 ② 就绪探针 • 负载均衡 • 重启机制 ① 区分异常原因 ② 本地重启/跨机重启 • 黑名单机制 • 集群核心数据的备份和恢复 ① Etcd ② 核心数据库 • 云盘机制保护应用数据 • 举例:1.4升级1.9版本 • Pod Hash发生变化 • Container名称发生变化,点分隔改为了下划线分隔 • 容器标签发生变化 pause容器的标签io restartCount改为 annotation.io.kubernetes.container.restartCoun • Cgroup目录结构发生变化,新增Pod层级 平台容灾 应用容灾 数据容灾 企业内部各个集群灰度运营。 可靠 资源管 理 CPU Memory Disk Space Network TX Network RX Disk IO (include0 码力 | 28 页 | 3.92 MB | 1 年前3 腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅年加入腾讯,现任数据平台部容器云开发组组长。 拥有多年分布式系统研发经验,对大数据、云计算、容器等有深刻理解。从事过自研容 器云平台,大数据云平台,以及面向公司内外的通用容器云平台,从无到有,从自研到 开源生态,从公司内部平台到同时面向To B市场。目前专注于容器云平台领域,负责腾 讯企业级容器云平台 。 2009年-2013年 2014年-今 2015年-今 自研容器云平台 腾讯大数据云 通用云平台 计算节点挂掉:跨机迁移 • 健康探针 ① 存活探针 ② 就绪探针 • 负载均衡 • 重启机制 ① 区分异常原因 ② 本地重启/跨机重启 • 黑名单机制 • 集群核心数据的备份和恢复 ① Etcd ② 核心数据库 • 云盘机制保护应用数据 • 举例:1.4升级1.9版本 • Pod Hash发生变化 • Container名称发生变化,点分隔改为了下划线分隔 • 容器标签发生变化 pause容器的标签io restartCount改为 annotation.io.kubernetes.container.restartCoun • Cgroup目录结构发生变化,新增Pod层级 平台容灾 应用容灾 数据容灾 企业内部各个集群灰度运营。 可靠 资源管 理 CPU Memory Disk Space Network TX Network RX Disk IO (include0 码力 | 28 页 | 3.92 MB | 1 年前3
 云计算白皮书展和服务模式创新的集中体现,是信息化发展的重大变革和必然趋 势,是信息时代国际竞争的制高点和经济发展新动能的助燃剂。云 计算引发了软件开发部署模式的创新,成为承载各类应用的关键基 础设施,并为大数据、物联网、人工智能等新兴领域的发展提供基 础支撑。加快推动云计算创新发展,顺应新一轮科技革命和产业变 革趋势,是推进中国式现代化进程的关键。 过去一年,全球和我国云计算产业保持快速发展,并呈现出以 四、云计算加速催生算力服务新范式..................................................................... 32 (一)架构方面,云计算支撑算力服务以数据为中心.................................. 32 (二)功能方面,云计算持续驱动算力服务创新发展.................................. 济、军事、科技等方面的领先地位。2021 年 5 月,美国国防部公布 美国本土以外(OCONUS)的战术边缘云战略,明确提出将通过云 战略获取全球优势。美国国立卫生研究院(NIH)表示将在 2023 年 实施新的数据管理政策,促进更多的研究人员使用云计算。此外, 美国在 2022 年 9 月发布了《国家竞争力面临的十年中期挑战》,其 中提到通过发展云计算等高新科技,健全数字基础设施,以扩大其 在经济、军事、科技等方面的竞争优势。0 码力 | 47 页 | 1.22 MB | 1 年前3 云计算白皮书展和服务模式创新的集中体现,是信息化发展的重大变革和必然趋 势,是信息时代国际竞争的制高点和经济发展新动能的助燃剂。云 计算引发了软件开发部署模式的创新,成为承载各类应用的关键基 础设施,并为大数据、物联网、人工智能等新兴领域的发展提供基 础支撑。加快推动云计算创新发展,顺应新一轮科技革命和产业变 革趋势,是推进中国式现代化进程的关键。 过去一年,全球和我国云计算产业保持快速发展,并呈现出以 四、云计算加速催生算力服务新范式..................................................................... 32 (一)架构方面,云计算支撑算力服务以数据为中心.................................. 32 (二)功能方面,云计算持续驱动算力服务创新发展.................................. 济、军事、科技等方面的领先地位。2021 年 5 月,美国国防部公布 美国本土以外(OCONUS)的战术边缘云战略,明确提出将通过云 战略获取全球优势。美国国立卫生研究院(NIH)表示将在 2023 年 实施新的数据管理政策,促进更多的研究人员使用云计算。此外, 美国在 2022 年 9 月发布了《国家竞争力面临的十年中期挑战》,其 中提到通过发展云计算等高新科技,健全数字基础设施,以扩大其 在经济、军事、科技等方面的竞争优势。0 码力 | 47 页 | 1.22 MB | 1 年前3
 第29 期| 2023 年9 月- 技术雷达小型设备上运行大语言模型,特别是在边缘设备和资源受限的环境中。我们还提到有望提高性能的 ReAct 提示 工程,以及利用大语言模型驱动的自主代理开发远超简单的问答交互的动态应用。我们也提到一些向量数据库 (包括 Pinecone)由于大语言模型而重新流行起来。大语言模型的底层能力,包括更专业化和自行托管的能力, 将继续呈爆发性增长。 远程交付解决方案日臻成熟 尽管远程软件开发团队多年来利 采纳 1. 设计系统 2. 轻量级的 RFCs 方法 试验 3. 具有可访问性意识的组件测试设计 4. 攻击路径分析 5. 自动合并依赖项更新 PR 6. 针对 FAIR 数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模 采纳 1. 设计系统 2. 轻量级的 RFCs 方法 试验 3. 具有可访问性意识的组件测试设计 4. 攻击路径分析 5. 自动合并依赖项更新 PR 6. 针对 FAIR 数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模0 码力 | 43 页 | 2.76 MB | 1 年前3 第29 期| 2023 年9 月- 技术雷达小型设备上运行大语言模型,特别是在边缘设备和资源受限的环境中。我们还提到有望提高性能的 ReAct 提示 工程,以及利用大语言模型驱动的自主代理开发远超简单的问答交互的动态应用。我们也提到一些向量数据库 (包括 Pinecone)由于大语言模型而重新流行起来。大语言模型的底层能力,包括更专业化和自行托管的能力, 将继续呈爆发性增长。 远程交付解决方案日臻成熟 尽管远程软件开发团队多年来利 采纳 1. 设计系统 2. 轻量级的 RFCs 方法 试验 3. 具有可访问性意识的组件测试设计 4. 攻击路径分析 5. 自动合并依赖项更新 PR 6. 针对 FAIR 数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模 采纳 1. 设计系统 2. 轻量级的 RFCs 方法 试验 3. 具有可访问性意识的组件测试设计 4. 攻击路径分析 5. 自动合并依赖项更新 PR 6. 针对 FAIR 数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模0 码力 | 43 页 | 2.76 MB | 1 年前3
共 41 条
- 1
- 2
- 3
- 4
- 5














 
 