运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智快速部署应用程序 • 弹性负载均衡 • 无缝升级应用 • 硬件隔离 Kubernetes 介绍 LXC (Linux Container) 介绍 在单一系统的内核层通过一套 API 在应用层提供硬件及软 件环境隔离的 Linux 环境(containers 。在内核层,通过 cgroup 来提供硬件环境的隔离(例如 CPU,Memory, Block I/O,网络等等 和通过 用来将需要容器化的应用程序及其环境进行打包后存储的镜像。 • 通常会有一个 Image 管理仓库来存储 Image。 • 同一个 Image 会有版本记录。 • 只包含软件环境的配置 • 硬件配置需要运行时去指定 OCI (Open Container Initiative) • From Linux Foundation • 旨在为 Container 格式和运行时创建开放行业标准。 运行时规范(runtime-spec • Image 规范(image-spec Container 管理工具 (User Space) 如何通过 Docker 启动 Container 并与硬件绑定 官方文档参考: https://docs.docker.com/engine/admin/resource_constraints/ Kubernetes 架构 Kubernetes0 码力 | 77 页 | 14.48 MB | 1 年前3
sealos 以 kubernetes 为内核的云操作系统namespace 共享主机端口,共享主机文件系统等操作 以保障多租户之间相互共享一个集群是安全的 User Namespace N 对 N 横向隔离 & 纵向隔离 逻辑隔离 & 物理隔离 选型 原因 编程语言 Golang/typescripts Kubernetes go 生态最为成熟,ts 主要前端 框架 Kubebuiler/react/nextjs/go-restful/ 开发CRD 块隔离同时享有本地存储性能 网络 cilium 高性能,可计量 网关 Higress 稳定性,reload 不中断,大规模 数据库编排 kubeblocks 稳定性,充分破坏性测试 Sealos 技术选型 基于区块链的统一认证与支付系 统。 公司任何其它产品和系统都可接 入,产品之间经济联通。 价值 一键帮助客户构建一 朵云,半个人力即可 维护,支撑企业所有 应用 夸张级别的降低企业基础设0 码力 | 29 页 | 7.64 MB | 9 月前3
QCon北京2017/支撑海量业务的互联网架构/知乎基于 Kubernetes 的 Kafka 平台探索和实践• 单机运⾏行行多 Broker ⽅方式 多集群问题 磁盘是不不得不不考虑的问题 • ⽇日志落盘,⽇日志失效 ⽅方案 • Broker 之间物理理磁盘隔离 磁盘是个⼤大问题 服务器器选型 ⾼高密度存储服务器器 • 多磁盘, 单盘 RAID • 服务器器使⽤用率⾼高 如何管理理集群 集群数增加,导致 Broker 扩张 • 如何调度它们 • 如何管理理它们 服务器器如何管理理0 码力 | 34 页 | 2.64 MB | 1 年前3
4-2-如何用OpenStack和K8s快速搭建一个容器和虚拟机组合服务的云平台-王昕安全性:更小的Attack Surface Ø 易于提供有状态服务 Ø 传统应用容易迁移 Ø Windows应用容易迁移 Ø 易于部署单体应用 Ø 用于桌面云 Ø 多服务单服务器部署 云平台技术的选择 云平台技术选型 容器编排系统的选择 ——Kubernetes的优势 vs. Mesos and Swarm Ø 来自Google的简单一致的设计理念 Ø 原生为容器集群打造 Ø 原生服务发现0 码力 | 38 页 | 3.55 MB | 1 年前3
DaoCloud Enterprise 5.0
产品介绍页 九大能力 DCE 5.0 云原生操作系统提供了 9 大能力,自由搭配各种模块,可以应对海量 应用场景。 这些模块就像乐高搭积木一样,糅合社区最优秀的几十种开源技术,经过众多 辩证选型、攻坚克难、编码调试、海量测试,“十年磨一剑,一朝试锋芒,全新 搭建的新一代容器化平台能够满足企业上云的各类场景需求。 多云编排 支持多云和混合云的统一集中管理,提供跨云资源检索及跨云的应用部署、发布和运0 码力 | 18 页 | 1.32 MB | 1 年前3
Kubernetes开源书 - 周立Kubernetes是⼀个旨在⾃动部署、扩展和运⾏应⽤容器的开源平台 。 使⽤Kubernetes,您可以快速有效地回应客户需求: 快速、可预测地部署应⽤。 动态缩放您的应⽤。 ⽆缝地推出新功能。 仅对需要的资源限制硬件的使⽤ 我们的⽬标是构建⼀个⽣态系统,提供组件和⼯具以减轻在公共和私有云中运⾏应⽤程序的负担。 Kubernetes是 可移植: 共有、私有、混合、多云 可扩展: 模块化、可插拔、提供Hook、可组合 件、配置、库 和⽣命周期与操作系统相互纠缠的缺点。⼈们可构建不可变的虚拟机映像,从⽽实现可预测的升级和回滚,但VM是重 量级、不可移植的。 新⽅法是部署容器,容器基于操作系统级别的虚拟化⽽不是硬件虚拟化。这些容器彼此隔离并且与宿主机隔离:它们有 ⾃⼰的⽂件系统,看不到对⽅的进程,并且它们的计算资源使⽤可以被界定。它们⽐VM更容易构建,并且由于它们与 底层基础架构和宿主机⽂件系统解耦了,可实现跨云、跨操作系统的移植。 :在笔记本电脑运⾏与云中⼀样。 云和操作系统可移植性 :可运⾏在Ubuntu、RHEL、CoreOS、内部部署,Google Container Engine以及任何其他 地⽅。 以应⽤为中⼼的管理:从在虚拟硬件上运⾏操作系统的抽象级别,提升到使⽤逻辑资源在操作系统上运⾏应⽤程序 的级别。 松耦合,分布式,弹性,解放的微服务:应⽤程序分为更⼩、独⽴的部件,可动态部署和管理——⽽不是⼀个运⾏ 在⼀个⼤型机上的单体。0 码力 | 135 页 | 21.02 MB | 1 年前3
云计算白皮书Office 365、 Dynamics 365 以及 Azure 三大生态充分打通,形成完整的技术生态。 二是更注重软硬协同,优化性能。在算力多样化、节点高密化、载 体细粒度化等诉求下,底层硬件在云计算的驱动下也因云而变。2022 年 6 月,阿里云发布 CIPU(Cloud infrastructure Processing Units,云 基础设施处理器),其是一套全新的计算架构体系,能够在通用计算、 7 应用现代化架构图 架构层面,一云多芯既可以贴合多元算力新需求,又能够支撑 业务场景多形态。一云多芯作为云计算的全新技术架构,通常指用 一套云操作系统来管理不同类型芯片、架构、接口、技术栈等硬件 服务器集群。在如今算力需求爆炸的 AI 时代,一云多芯为各行各业 践行数字化转型提供了有力支持。一方面,它可以提供统一管理、 云计算白皮书(2023 年) 17 灵活便捷的算力资源,一定程度上解决了不同类型芯片的共存问题; 华为云等厂商均在政务领域有落地实践,利用一云多芯技术打造具 有安全性和高效性的政务云平台。同时,一云多芯已逐渐完成从底 层硬件至上层云原生应用的多芯全栈式适配兼容。作为 IT 产业发展 承上启下的关键环节,一云多芯不仅可以对底层各种异构资源统一 调度,还可以实现对上层应用和软件的适配操作,同时保证云平台 性能高效稳定。硬件芯片方面,通过屏蔽底层芯片差异实现资源池 化,从而满足对各种芯片的统一调度,这不仅包含对飞腾、鲲鹏、0 码力 | 47 页 | 1.22 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达大语言模型(LLMs)通常需要大量的 GPU 基础设施才能运行,但目前有强烈的推动力使它们可以在更简单的 硬件上运行。对大语言模型进行量化可以减少内存需求,使高保真度模型可以在成本更低廉的硬件甚至是 CPU 上运行。像 llama.cpp 这样的工作使大语言模型可以在包括树莓派、笔记本电脑和通用服务器在内的硬件上运 行成为可能。 许多组织正在部署自托管式大语言模型。这往往是出于安全或隐私方面的考虑,有时是因为需要在边缘设备上 品,但是 一些企业仍在部署 CCF,因为它具有以下所有功能:它是开源的,可扩展的,能跨多云工作,并且有一个透明 公开的计算方法。此外,它还包括范围 2 和范围 3 排放的估算,分别针对电力使用和硬件生产。在我们的实验 中,不同工具的估算结果不尽相同,这并不奇怪,因为该领域的所有工具都会进行估算,并将估算值相乘。然 而,确定一种工具、设定基准线并在此基础上进行改进是我们遇到的主要使用场景,类似 GGML 评估 GGML 是一个机器学习的 C 语言库,它支持 CPU 推理。它定义了一种分布式大语言模型(LLMs)的二进制格 式。为此,GGML 采用了量化技术,这种技术可以使 LLM 在用户的硬件上运行有效的 CPU 推理。GGML 支持 多种量化策略(例如 4 位、5 位、以及 8 位量化),每种策略动都在效果和性能之间提供了不同的取舍。一种快 捷地对使用这些量化模型的应用进行测试、运行和构建的方法是使用一个叫做0 码力 | 43 页 | 2.76 MB | 1 年前3
腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅NVIDIA GRID 在硬件层面实现GPU虚拟化,每个容器可以绑定一个虚拟GPU NVIDIA Docker 通过将GPU设备及运行时的库转为volume挂载到容器中实现了容 器与驱动的解耦。但是一个GPU设备仅能挂载到一个容器中,不 支持容器间共享GPU设备 ConvGPU 仅支持内存资源的共享且仅处理单个GPU 容器使用GPU的问题: • 需要特定的硬件设备 • 不支持容器共享 • • 仅支持内存资源虚拟化 • 仅支持单个GPU卡 采用Device Plugin: • GPU资源的发现 • 为任务分配相应的硬件 资源及配置容器运行时环境 transparent. GaiaGPU不应修改Kubernetes代码或容器镜像以共享GPU。使用共享GPU执行应用程序应该就像 在物理GPU上执行一样。 Performance. GaiaGPU应当保证vGPU的性能与原生GPU性能相近。0 码力 | 28 页 | 3.92 MB | 1 年前3
Alluxio 助力 Kubernetes, 加速云端深度学习Alluxio 是谁 • Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌 Alluxio 创始成员 背景 硬件 软件 数据 容器化的基础架构 人工智能发展的驱动力 模拟数据训练速度 311.6 7323.84 9993.6 33884.8 0 5000 10000 15000 20000 25000 P100 (1GPU) P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练速度(images/second) 分布式训练/GPU硬件升级加速明显 模拟数据训练时间 108 15.12 4.62 3.39 1 0 20 40 60 80 100 120 P100 (1GPU) P100 (8GPU) P1000 码力 | 22 页 | 11.79 MB | 1 年前3
共 16 条
- 1
- 2













