 全球架构师峰会2019北京/大数据/Kubernetes 运行大数据工作负载的探索和实践&mdashKubernetes 运行大数据工作负 载的探索和实践 Leibo Wang(wang.platform@Hotmail.com) Huawei CloudBU Principal Engineer 王雷博 Principal Software Engineer • Huawei(Now) - Cloud Native batch system (Volcano) development0 码力 | 25 页 | 3.84 MB | 1 年前3 全球架构师峰会2019北京/大数据/Kubernetes 运行大数据工作负载的探索和实践&mdashKubernetes 运行大数据工作负 载的探索和实践 Leibo Wang(wang.platform@Hotmail.com) Huawei CloudBU Principal Engineer 王雷博 Principal Software Engineer • Huawei(Now) - Cloud Native batch system (Volcano) development0 码力 | 25 页 | 3.84 MB | 1 年前3
 高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰等多个项目的发起人 • 背景介绍 • 设计思路 • 性能优化 • 落地效果 • 未来演进 背景 • Kubernetes 规模增大 10 倍以上  公司业务快速发展  存储、大数据、机器学习等场景云原生化 • 新场景对 Kubernetes 性能要求更高  离线场景,Pod 生命周期短、变更频率高 如何扩展 Kubernetes 集群 单个集群规模垂直扩展 多个集群横向扩展 事务 • 支持 CAS • 支持快照读 • 高性能 存储层 - 数据格式 etcd KubeBrain 能否使用类似的格式? 1. 否 2. 底层存储引擎全局有序,有写热点那问题 Etcd 以 Revision 为 Key 内存 Btree 索引维护 key 和 revision 的映射关系 存储层 - 数据格式 KubeBrain 逻辑层 逻辑层 – 写 逻辑层 – Watch(1) 仅主节点负责写入和事件生成 2. 从节点只读 逻辑层 – Watch(3) • Master 内存中保留最近写入的 事件 • 写入滑动窗口记录并发写操作的 结果 • 消费滑动窗口中的数据实现有序 的 Event 推送 • 当前消费的最大位置为 Brain 层 的 Committed Index,与 快照 读有关 逻辑层 – 单 Key 读 逻辑层 – Range 读 逻辑层0 码力 | 60 页 | 8.02 MB | 1 年前3 高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰等多个项目的发起人 • 背景介绍 • 设计思路 • 性能优化 • 落地效果 • 未来演进 背景 • Kubernetes 规模增大 10 倍以上  公司业务快速发展  存储、大数据、机器学习等场景云原生化 • 新场景对 Kubernetes 性能要求更高  离线场景,Pod 生命周期短、变更频率高 如何扩展 Kubernetes 集群 单个集群规模垂直扩展 多个集群横向扩展 事务 • 支持 CAS • 支持快照读 • 高性能 存储层 - 数据格式 etcd KubeBrain 能否使用类似的格式? 1. 否 2. 底层存储引擎全局有序,有写热点那问题 Etcd 以 Revision 为 Key 内存 Btree 索引维护 key 和 revision 的映射关系 存储层 - 数据格式 KubeBrain 逻辑层 逻辑层 – 写 逻辑层 – Watch(1) 仅主节点负责写入和事件生成 2. 从节点只读 逻辑层 – Watch(3) • Master 内存中保留最近写入的 事件 • 写入滑动窗口记录并发写操作的 结果 • 消费滑动窗口中的数据实现有序 的 Event 推送 • 当前消费的最大位置为 Brain 层 的 Committed Index,与 快照 读有关 逻辑层 – 单 Key 读 逻辑层 – Range 读 逻辑层0 码力 | 60 页 | 8.02 MB | 1 年前3
 运维上海2017-分布式数据库系统TiDB在Kubernetes平台的自动化运维实践-邓栓0 码力 | 32 页 | 3.47 MB | 1 年前3 运维上海2017-分布式数据库系统TiDB在Kubernetes平台的自动化运维实践-邓栓0 码力 | 32 页 | 3.47 MB | 1 年前3
 云计算白皮书党的二十大报告提出,要构建新一代信息技术等一批新的增长 引擎,打造具有国际竞争力的数字产业集群。云计算是信息技术发 展和服务模式创新的集中体现,是信息化发展的重大变革和必然趋 势,是信息时代国际竞争的制高点和经济发展新动能的助燃剂。云 计算引发了软件开发部署模式的创新,成为承载各类应用的关键基 础设施,并为大数据、物联网、人工智能等新兴领域的发展提供基 础支撑。加快推动云计算创新发展,顺应新一轮科技革命和产业变 亿元, 较 2021 年增长 40.91%。相比于全球 19%的增速,我国云计算市场 仍处于快速发展期,预计 2025 年我国云计算整体市场规模将超万亿 元。 三是云计算产业环境日益激烈,新一轮竞争全面开启。全球各 国将云计算看作抢占新一轮科技革命制高点的关键环节。云计算巨 头厂商在全球化布局基础上,纷纷调整发展重心,并聚焦热点区域、 热点领域和热点方向,试图在市场上抢得先机。 四是云 (一)各国加速推进云计算战略,聚焦云计算赋能行业价值........................ 1 (二)云市场进入稳定增长阶段,行业巨头进一步扩大领先优势................ 3 (三)云计算产业竞争全面升级,云服务商开启新一轮角逐........................ 5 二、我国云计算发展概述............................................0 码力 | 47 页 | 1.22 MB | 1 年前3 云计算白皮书党的二十大报告提出,要构建新一代信息技术等一批新的增长 引擎,打造具有国际竞争力的数字产业集群。云计算是信息技术发 展和服务模式创新的集中体现,是信息化发展的重大变革和必然趋 势,是信息时代国际竞争的制高点和经济发展新动能的助燃剂。云 计算引发了软件开发部署模式的创新,成为承载各类应用的关键基 础设施,并为大数据、物联网、人工智能等新兴领域的发展提供基 础支撑。加快推动云计算创新发展,顺应新一轮科技革命和产业变 亿元, 较 2021 年增长 40.91%。相比于全球 19%的增速,我国云计算市场 仍处于快速发展期,预计 2025 年我国云计算整体市场规模将超万亿 元。 三是云计算产业环境日益激烈,新一轮竞争全面开启。全球各 国将云计算看作抢占新一轮科技革命制高点的关键环节。云计算巨 头厂商在全球化布局基础上,纷纷调整发展重心,并聚焦热点区域、 热点领域和热点方向,试图在市场上抢得先机。 四是云 (一)各国加速推进云计算战略,聚焦云计算赋能行业价值........................ 1 (二)云市场进入稳定增长阶段,行业巨头进一步扩大领先优势................ 3 (三)云计算产业竞争全面升级,云服务商开启新一轮角逐........................ 5 二、我国云计算发展概述............................................0 码力 | 47 页 | 1.22 MB | 1 年前3
 第29 期| 2023 年9 月- 技术雷达Reserved. 7 众多大语言模型 大语言模型(LLMs)为现今人工智能的许多重要突破奠定了基础。目前的应用多使用类似聊天的界面进行交 互,例如 ChatGPT 或 Google Bard。生态中的主要竞争者(例如 OpenAI 的 ChatGPT,Google Bard,Meta 的 LLaMA 以及亚马逊的 Bedrock 等)在我们的讨论中占据重要地位。更广泛来说,大语言模型可以应用于从 小型设备上运行大语言模型,特别是在边缘设备和资源受限的环境中。我们还提到有望提高性能的 ReAct 提示 工程,以及利用大语言模型驱动的自主代理开发远超简单的问答交互的动态应用。我们也提到一些向量数据库 (包括 Pinecone)由于大语言模型而重新流行起来。大语言模型的底层能力,包括更专业化和自行托管的能力, 将继续呈爆发性增长。 远程交付解决方案日臻成熟 尽管远程软件开发团队多年来利 采纳 1. 设计系统 2. 轻量级的 RFCs 方法 试验 3. 具有可访问性意识的组件测试设计 4. 攻击路径分析 5. 自动合并依赖项更新 PR 6. 针对 FAIR 数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模0 码力 | 43 页 | 2.76 MB | 1 年前3 第29 期| 2023 年9 月- 技术雷达Reserved. 7 众多大语言模型 大语言模型(LLMs)为现今人工智能的许多重要突破奠定了基础。目前的应用多使用类似聊天的界面进行交 互,例如 ChatGPT 或 Google Bard。生态中的主要竞争者(例如 OpenAI 的 ChatGPT,Google Bard,Meta 的 LLaMA 以及亚马逊的 Bedrock 等)在我们的讨论中占据重要地位。更广泛来说,大语言模型可以应用于从 小型设备上运行大语言模型,特别是在边缘设备和资源受限的环境中。我们还提到有望提高性能的 ReAct 提示 工程,以及利用大语言模型驱动的自主代理开发远超简单的问答交互的动态应用。我们也提到一些向量数据库 (包括 Pinecone)由于大语言模型而重新流行起来。大语言模型的底层能力,包括更专业化和自行托管的能力, 将继续呈爆发性增长。 远程交付解决方案日臻成熟 尽管远程软件开发团队多年来利 采纳 1. 设计系统 2. 轻量级的 RFCs 方法 试验 3. 具有可访问性意识的组件测试设计 4. 攻击路径分析 5. 自动合并依赖项更新 PR 6. 针对 FAIR 数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模0 码力 | 43 页 | 2.76 MB | 1 年前3
 Kubernetes全栈容器技术剖析商业增强:控制面HA、跨AZ高可用、滚动升级、裸金属容器 云容器引擎 CCE 微服务引擎 CSE 开源原生 企业级 中间件 分布式 缓存 DCS 分布式 消息 DMS 分布式 数据库 DDM 应用编排引擎 AOS App/PaaS/IaaS 资源一键式创建 应用运维 AOM 应用性能管理 APM 应用拓扑 调用链 SLA指标 日志关联分析 异常预警 序,人体健康监测,大数据分析等生物健康产品及解决 方案。 挑战: • 全基因测序原始数据约100GB/人,数据分析性能要 求高 • 测序需求多样,测序流程难以灵活自定义 基于容器的生物信息分析平台 • 结合FPGA加速计算可进一 步压缩成本 基因测序(测序仪) 数据上传 源数据 存储 基因拼接/对比/注释 数据 分类 存储 核心数据 取回本地 自动化部署 数据库 SFS/OBS •业务快速迭代,高峰期一周3~5个版本更新,运维压力大 •其他厂商的容器服务成熟度低,达不到商用要求 华为方案价值: •企业级容器服务经过2+年商用实践,SLA有保障 •提供一站式网络、存储、数据库、监控告警和健康检查解 决方案,降低系统集成风险,持续保障业务稳定运行 •支持原生 kubernetes API,原有容器化业务无缝迁移上云 蓝鲸传媒是证券时报旗下,国内首家针对科技媒体人打造0 码力 | 26 页 | 3.29 MB | 1 年前3 Kubernetes全栈容器技术剖析商业增强:控制面HA、跨AZ高可用、滚动升级、裸金属容器 云容器引擎 CCE 微服务引擎 CSE 开源原生 企业级 中间件 分布式 缓存 DCS 分布式 消息 DMS 分布式 数据库 DDM 应用编排引擎 AOS App/PaaS/IaaS 资源一键式创建 应用运维 AOM 应用性能管理 APM 应用拓扑 调用链 SLA指标 日志关联分析 异常预警 序,人体健康监测,大数据分析等生物健康产品及解决 方案。 挑战: • 全基因测序原始数据约100GB/人,数据分析性能要 求高 • 测序需求多样,测序流程难以灵活自定义 基于容器的生物信息分析平台 • 结合FPGA加速计算可进一 步压缩成本 基因测序(测序仪) 数据上传 源数据 存储 基因拼接/对比/注释 数据 分类 存储 核心数据 取回本地 自动化部署 数据库 SFS/OBS •业务快速迭代,高峰期一周3~5个版本更新,运维压力大 •其他厂商的容器服务成熟度低,达不到商用要求 华为方案价值: •企业级容器服务经过2+年商用实践,SLA有保障 •提供一站式网络、存储、数据库、监控告警和健康检查解 决方案,降低系统集成风险,持续保障业务稳定运行 •支持原生 kubernetes API,原有容器化业务无缝迁移上云 蓝鲸传媒是证券时报旗下,国内首家针对科技媒体人打造0 码力 | 26 页 | 3.29 MB | 1 年前3
 DaoCloud Enterprise 5.0
产品介绍帮助您洞察集群、节点、应用和服务的详细指标,并通 过动态仪表盘和拓扑大图可视化掌握应用健康状态。 DCE 5.0 原生支持 DevOps 开发运维模式,可以实现应用交付的全流程标准化 和自动化,并集成各类精选数据库和中间件,使运维治理更加高效。各个产品 模块独立解耦,支持灵活升级,对业务没有影响,并且能够与众多云原生生态 产品对接,提供完整的解决方案体系。 它经过了近千家行业客户的生产场景检 验,构建了坚实 、信创异构 中间件服务 专为有状态应用设计的云原生本地存储能力,满足中间件高 I/O 的存储需求,提升运 维管理效率。精选各类数据库、分布式消息和日志检索等中间件,提供多租户、部 署、观测、备份、运维操作等全生命周期的中 间件管理能力,实现数据服务的自助化 申请、弹性扩展、高并发处理和稳定高可用。 涉及的模块:全局管理、容器管理、云原生网络、云原生存储、精选中间件 版权 © 2023 等技术手段,全面采集服务数据,深入获取请求链路信 息,动态观测、多维度掌控集群、节点、应用和服务的实时变化,通过统一控制面实 现所有集群及负载观测数据的查询,引入拓扑分析技术可视化掌握应用健康状态,实 现秒级故障定位。 涉及的模块:全局管理、容器管理、可观测性、云原生网络、云原生存储 版权 © 2023 DaoCloud 第 6 页 应用商店 收录来自大数据、AI、中间件等0 码力 | 18 页 | 1.32 MB | 1 年前3 DaoCloud Enterprise 5.0
产品介绍帮助您洞察集群、节点、应用和服务的详细指标,并通 过动态仪表盘和拓扑大图可视化掌握应用健康状态。 DCE 5.0 原生支持 DevOps 开发运维模式,可以实现应用交付的全流程标准化 和自动化,并集成各类精选数据库和中间件,使运维治理更加高效。各个产品 模块独立解耦,支持灵活升级,对业务没有影响,并且能够与众多云原生生态 产品对接,提供完整的解决方案体系。 它经过了近千家行业客户的生产场景检 验,构建了坚实 、信创异构 中间件服务 专为有状态应用设计的云原生本地存储能力,满足中间件高 I/O 的存储需求,提升运 维管理效率。精选各类数据库、分布式消息和日志检索等中间件,提供多租户、部 署、观测、备份、运维操作等全生命周期的中 间件管理能力,实现数据服务的自助化 申请、弹性扩展、高并发处理和稳定高可用。 涉及的模块:全局管理、容器管理、云原生网络、云原生存储、精选中间件 版权 © 2023 等技术手段,全面采集服务数据,深入获取请求链路信 息,动态观测、多维度掌控集群、节点、应用和服务的实时变化,通过统一控制面实 现所有集群及负载观测数据的查询,引入拓扑分析技术可视化掌握应用健康状态,实 现秒级故障定位。 涉及的模块:全局管理、容器管理、可观测性、云原生网络、云原生存储 版权 © 2023 DaoCloud 第 6 页 应用商店 收录来自大数据、AI、中间件等0 码力 | 18 页 | 1.32 MB | 1 年前3
 逐灵&木苏-阿里巴巴 K8S 超大规模实践经验AI 集团管理 系统 2017 统一资源池 构建了 Sigma 调度系统,收敛了 众多运维平台之下的资源调度系 统,并构建了集团统一资源池, 在此基础上发展出弹性、混部等 技术成果,大幅降低了数据中心 的资源成本 2019 全面拥抱云原生 阿里业务全面上云,运维体系全 面拥抱云原生,基于 k8s 生态在 阿里内部蓬勃发展。在 2019 双 11 中,k8s 体系支撑了阿里史上 规模最大的集群,并提供了极速 Authenticatio n 序列化 压缩 版本转换 Admission Cache Storage Filter Chain API 存储 Kube-APIServer Webhook ETCD 数据构建 压测场景 压测环境 压测报告 压测平台 监控&大盘• APIServer & ETCD & Webhook Load balance ETCD Webhook Client Kubelets rv@t0 Add Indexs 1. nodename 2. Namespace 3. Labels …… Describe node 5s 0.3s• 稳定性保证 规模化容器调度 稳定 资源竞争 容灾 负载均衡 CPU精细化分配 应用互斥/亲和 维度:应用、核心应用 拓扑:单机、AZ 节点负载感知 资源利用率预测• 丰富的调度策略 规模化容器调度 APIServer Scheduler0 码力 | 33 页 | 8.67 MB | 6 月前3 逐灵&木苏-阿里巴巴 K8S 超大规模实践经验AI 集团管理 系统 2017 统一资源池 构建了 Sigma 调度系统,收敛了 众多运维平台之下的资源调度系 统,并构建了集团统一资源池, 在此基础上发展出弹性、混部等 技术成果,大幅降低了数据中心 的资源成本 2019 全面拥抱云原生 阿里业务全面上云,运维体系全 面拥抱云原生,基于 k8s 生态在 阿里内部蓬勃发展。在 2019 双 11 中,k8s 体系支撑了阿里史上 规模最大的集群,并提供了极速 Authenticatio n 序列化 压缩 版本转换 Admission Cache Storage Filter Chain API 存储 Kube-APIServer Webhook ETCD 数据构建 压测场景 压测环境 压测报告 压测平台 监控&大盘• APIServer & ETCD & Webhook Load balance ETCD Webhook Client Kubelets rv@t0 Add Indexs 1. nodename 2. Namespace 3. Labels …… Describe node 5s 0.3s• 稳定性保证 规模化容器调度 稳定 资源竞争 容灾 负载均衡 CPU精细化分配 应用互斥/亲和 维度:应用、核心应用 拓扑:单机、AZ 节点负载感知 资源利用率预测• 丰富的调度策略 规模化容器调度 APIServer Scheduler0 码力 | 33 页 | 8.67 MB | 6 月前3
 Alluxio 助力 Kubernetes, 加速云端深度学习Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌 Alluxio 创始成员 背景 硬件 软件 数据 容器化的基础架构 人工智能发展的驱动力 模拟数据训练速度 311.6 7323.84 9993.6 33884.8 0 5000 10000 15000 20000 25000 30000 35000 40000 P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练速度(images/second) 分布式训练/GPU硬件升级加速明显 模拟数据训练时间 108 15.12 4.62 3.39 1 0 20 40 60 80 100 120 P100 (1GPU) P100 (8GPU) P100 (32GPU) V100 8卡 : 157.9元/小时 x 4 = 631.6 元 P100 1卡:12.78 元/小时 x108 = 1380.24 元 数据访问的新挑战 1.强大的算力需要匹配的I/O吞吐 2.计算存储分离导致I/O延迟 3.单机缓存无法满足海量数据加速 9993.6 3189.6 0 2000 4000 6000 8000 10000 12000 Synthetic ESSD云盘0 码力 | 22 页 | 11.79 MB | 1 年前3 Alluxio 助力 Kubernetes, 加速云端深度学习Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌 Alluxio 创始成员 背景 硬件 软件 数据 容器化的基础架构 人工智能发展的驱动力 模拟数据训练速度 311.6 7323.84 9993.6 33884.8 0 5000 10000 15000 20000 25000 30000 35000 40000 P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练速度(images/second) 分布式训练/GPU硬件升级加速明显 模拟数据训练时间 108 15.12 4.62 3.39 1 0 20 40 60 80 100 120 P100 (1GPU) P100 (8GPU) P100 (32GPU) V100 8卡 : 157.9元/小时 x 4 = 631.6 元 P100 1卡:12.78 元/小时 x108 = 1380.24 元 数据访问的新挑战 1.强大的算力需要匹配的I/O吞吐 2.计算存储分离导致I/O延迟 3.单机缓存无法满足海量数据加速 9993.6 3189.6 0 2000 4000 6000 8000 10000 12000 Synthetic ESSD云盘0 码力 | 22 页 | 11.79 MB | 1 年前3
 Kubernetes for Edge Computing across
Inter-Continental Haier Production Sites企业级产品与解决方案 • Compass: 打通业务与数据、从数字化到智能化转 型 • Clever: 基于容器的 AI PaaS 平台(AI Devops、资 源管理任务调度) 工业互联网平台 - 制造业大势所趋 • 全球工业互联网平台数量 > 150 国家 研究内容 代表成果 政策扶持 工业互联网综合平台,采用数据流打通与 数据分析衍生价值的结构 Predix平台 GE联合AT&T 发布参考架构IIRA. 基于云的开放式物联网操作系统,实现全 面的系统集成和数据融合,打破数据孤岛 Mindsphere平台 德国联邦政府支持相关行业协会建设工业4.0平台,负 责工业4.0国家战略的宣传推广,标准制定,人才培养 和技术研发。 以工业大数据为驱动,以云计算,大数据, 物联网技术为核心的工业互联网开放平台, 实现产品,机器,数据,人的全面互联互 通和综合集成 INDICS平台 根云平台 COSMOPlat平台 负载均衡 应用编排 日志监控 告警 服务发现 API 业务中台 多租户管理 运维中台 云端操作系统 数据中台 面向数据与智能 数据管理 大数据 机器学习 资源管理 深度学习 AI工具 API IOT中台 面向行业解 决方案 边缘计算 数据通道 数据分析 API 海尔工业互联网 - 微服务之框架支持 Netflix Config Server (git based)0 码力 | 33 页 | 4.41 MB | 1 年前3 Kubernetes for Edge Computing across
Inter-Continental Haier Production Sites企业级产品与解决方案 • Compass: 打通业务与数据、从数字化到智能化转 型 • Clever: 基于容器的 AI PaaS 平台(AI Devops、资 源管理任务调度) 工业互联网平台 - 制造业大势所趋 • 全球工业互联网平台数量 > 150 国家 研究内容 代表成果 政策扶持 工业互联网综合平台,采用数据流打通与 数据分析衍生价值的结构 Predix平台 GE联合AT&T 发布参考架构IIRA. 基于云的开放式物联网操作系统,实现全 面的系统集成和数据融合,打破数据孤岛 Mindsphere平台 德国联邦政府支持相关行业协会建设工业4.0平台,负 责工业4.0国家战略的宣传推广,标准制定,人才培养 和技术研发。 以工业大数据为驱动,以云计算,大数据, 物联网技术为核心的工业互联网开放平台, 实现产品,机器,数据,人的全面互联互 通和综合集成 INDICS平台 根云平台 COSMOPlat平台 负载均衡 应用编排 日志监控 告警 服务发现 API 业务中台 多租户管理 运维中台 云端操作系统 数据中台 面向数据与智能 数据管理 大数据 机器学习 资源管理 深度学习 AI工具 API IOT中台 面向行业解 决方案 边缘计算 数据通道 数据分析 API 海尔工业互联网 - 微服务之框架支持 Netflix Config Server (git based)0 码力 | 33 页 | 4.41 MB | 1 年前3
共 41 条
- 1
- 2
- 3
- 4
- 5














 
 