openEuler 23.09 技术白皮书现行加速器内存管理方案存在诸多缺陷: • CPU 侧内存管理与加速器侧分离,数据显式搬移,加速器内存管理的易用性和性能难以平衡。 • 大模型场景下加速器设备 HBM 内存(Hign BandWidth Memory)严重不足,现有的手动 swap 方案性能损耗大且 通用性差。 • 搜推、大数据场景存在大量无效数据搬移,缺少高效内存池化方案。 Linux 现有的 HMM 框架,编程复杂度高且依赖人工调优,性能和可移植性差,引发 前上限为 CPU 的 DRAM 容量)。GMEM 将较冷的设备内存页换出到 CPU 内存上,拓展了应用处理的问题规模,实现高性能、低门槛训推。 通过 GMEM 提供的极简异构内存管理框架,在超大模型训练中,GMEM 性能领先 NVIDIA-UVM。随着内存使用量增长,领 先比例不断提升,在超分两倍以上时可领先 NVIDIA-UVM 60% 以上。(数据基于 NPU-Ascend910 与 GPU-A100 访问时,通过内核缺页流程即可将待访问内存在主 机与加速器进行搬移。在实际使用时,加速器可在内存不足时可以借用主机内存,同时回收加速器内的冷内存,达到内存 超分的效果,突破模型参数受限于加速器内存的限制,实现低成本的大模型训练。 通过在内核中提供 GMEM 高层 API,允许加速器驱动通过注册 GMEM 规范所定义的 MMU 函数直接获取内存管理功能, 建立逻辑页表并进行内存超分。逻辑页表将内存管理的高层逻辑与0 码力 | 52 页 | 5.25 MB | 1 年前3
openEuler 24.03 LTS 技术白皮书CANN 或 NVIDIA 的 CUDA 软件。 • AI 框架镜像:以 SDK 镜像为基础,安装 AI 框架软件,如 PyTorch 或 TensorFlow。 • 模型应用镜像:在 AI 框架镜像的基础上,包含完整的工具链和模型应用。 相关使用方式请参考 openEuler AI 容器镜像用户指南。 openEuler 使能 AI,向用户提供更多 OS 选择。基于 openEuler 的 AI 等应用的开发和调试。同时, 可在该类容器中运行高性能计算任务,例如大规模数据处理、并行计算等。 • AI 框架镜像:用户可直接在该类容器中进行 AI 模型开发、训练及推理等任务。 • 模型应用镜像:已预置完整的 AI 软件栈和特定的模型,用户可根据自身需求选择相应的模型应用镜像来开展模型推理或微调 任务。 应用场景 场景创新 12 openEuler 24.03 LTS 技术白皮书 EulerCopilot 相关使用方式请参考 EulerCopilot 智能问答服务使用指南。 EulerCopilot- 智能问答 功能描述 应用场景 当前,openEuler 和 AI 深度结合,一方面使用基础大模型,基于大量 openEuler 操作系统的代码和数据,训练出 EulerCopilot, 初步实现代码辅助生成、智能问题智能分析、系统辅助运维等功能,让 openEuler 更智能。 AI for0 码力 | 45 页 | 6.18 MB | 1 年前3
openEuler 22.09 技术白皮书09 Edge 版本和面向嵌入式的 openEuler 22.09 Embedded 版本,构建全 场景协同的数字基础设施操作系统。 嵌入式 在中国制造 2025 及工业化和信息化融合进程加快的大背景下,我国工业软件以及信息化服务的需求持续增加,嵌入式软 件作为工业软件行业最大的细分产品,其市场份额占比达到 57.4%,发展日渐壮大。 openEuler 发布面向嵌入式领域的版本 openEuler AArch64 提供更好的 HPC 和机器学习性能。 • 引入 Rust for linux 驱动框架:为 Linux 提供了 Rust 相关的基础设施和方便编写 Linux 驱动的框架。 • 支持程序代码段大页特性:可以减少 TLB Miss,提升应用性能。 • 支持 SM3/SM4 等商密算法加速。 • 模块签名支持商密算法。 可编程内核 基于 eBPF 的可编程调度框架,支持内核调度器动态扩展 决高并发场景下容器冷启动速度慢和内存底噪开销大的问题。 功能描述 轻量级 Wasm 沙箱引擎整体功能主要由以下两个关键组件提供: 1. Wasm 函数管理框架 • 支持监听处理高并发量函数请求 • 函数的生命周期管理 • 兼容 OCI 格式容器镜像,管理本地函数镜像资源 2. Wasm 轻量级协程调度框架 抽象 Wasm 实例执行上下文,支持轻量级高性能的用户态协程调度模型,并支持 JIT/AOT 多种0 码力 | 13 页 | 1.39 MB | 1 年前3
openEuler 22.03-LTS 技术白皮书边缘数据服务:通过边缘数据服务实现消息、数据、媒体流的按需持久化,并具备数据分析和数据导出的能力。 4. 边云智能协同架构(Sedna):基于开源 Sedna 框架,提供基础的边云协同推理、联邦学习、增量学习等能力,并 实现了基础的模型管理、数据集管理等,使能开发者快速开发边云 AI 协同特性,以及提升用户边云 AI 特性的训练 与部署效率。 应用场景 可应用智能制造、城市交通、高速收费稽查、智慧加油 openEuler 22.03-LTS 技术白皮书 13 openEuler 22.03-LTS 技术白皮书 12 05/ 内核创新 嵌入式 在中国制造 2025 及工业化和信息化融合进程加快的大背景下,我国工业软件以及信息化服务的需求持续增加,嵌入式 软件作为工业软件行业最大的细分产品,其市场份额占比达到 57.4%,发展日渐壮大。 openEuler 发布面向嵌入式领域的版本 openEuler lru_lock,减少云原生容器实例锁竞争,提升系统性能。 • 大页内存管理优化:通过共享映射方式将 HugeTLB 管理页中无实际作用的 tail 页释放掉,降低大页内存管理结构的 开销。 • TLB 并发刷新支持:本地 TLB 和远端 TLB 刷新并行,优化 TLB shootdown 流程加速 TLB 刷新,提升业务性能。 • 大页 vmalloc 性能优化:对于超过 huge page 的最小0 码力 | 17 页 | 6.52 MB | 1 年前3
openEuler 22.03 LTS SP2 技术白皮书优先级负载均衡特性 负载均衡 FIFO 任务迁移队列不区分优先级,无法解决跨核迁移抢占保障高优先级,特别是 CPU 敏感型任务的优先调 度,针对在线、离线容器混部场景下,CFS 负载均衡需要提出一种优先级队列模型,支持高低优先级的 QoS 负载均衡,确 保在线业务能更快得到调度和执行,最大化压制离线任务的 QoS 干扰,提高整机 CPU 资源利用率。 混部场景中,开启了 CPU QoS 优先级负载均衡特性,需要将 控制。 业务可根据时延敏感性分为高优先级业务和低优先级业务,将业务区分优先级混合部署以提高资源利用率。高优先级 虚拟机业务推荐:时延敏感类业务,如 web 服务、高性能数据库、实时渲染、机器学习推理等。低优先级虚拟机业务推荐: 非时延敏感类业务,如视频编码、大数据处理、离线渲染、机器学习训练等。 应用场景 版本功能如下: • 集群调度增强:增强 OpenStack Nova 能力,支持优先级语义调度。 Execution Environment)SDK 差 异提供统一的开发框架,同时提供开发工具、通用安全组件等,帮助安全应用开发者聚焦业务,提升开发效率。 secGear 的整体架构如图所示,主要提供三大能力: • 架构兼容:屏蔽不同 SDK 接口差异,提供统一开发接口,实现不同架构共源码。 • 易开发:提供开发工具、通用安全组件等,帮助用户聚焦业务,开发效率显著提升。 • 高性能:提供零切换特性,在0 码力 | 48 页 | 5.62 MB | 1 年前3
openEuler 21.09 技术白皮书lru_lock,减少云原生 容器实例锁竞争,提升系统性能。 大页内存管理优化:通过共享映射方式将 HugeTLB 管理页中无实际作用的 tail 页 释放掉,降低大页内存管理结构的开销。 TLB 并发刷新支持:本地 TLB 和远端 TLB 刷新 并行,优化TLB shootdown流程加速TLB刷新, 提升业务性能。 大页 vmalloc 性能优化:对于超过 huge page 的 Optane)是一种提供字节访问粒度的新型高速存储介质,现有内核文件系统 EXT4,可以协同 DAX 特性改善 NVDIMM 新介质数据读写性能,但在元数据管理方面,基于现有 journal 同步机制,元数据 管理开销大,且容易出现写放大问题,NVDIMM 优势无法充分发挥。 EulerFS 创新元数据软更新技术(Soft Update),基于指针的目录双视图计数机制,减少元数据同步开销,有效提升文件 系统 cr 热数据在 DRAM 高速 内存区中运行,让冷数据交换到低速内存区,从而增加内存容量,保证核心业务高效平稳运行。该特性 适用于内存使用量大,且使用相对不频繁的应用进程上,在这些场景中的效果好收益大,实测等成本条件下 MySQL 性能提升 40%。针对用户态存储框架和用户需求,新增用户态的内存交换机制。 功能描述 继承已有功能: 1. 进程级控制:etMem 支持通过配置文件来进行内存扩展的进程,相比于操作系统原生的基于0 码力 | 35 页 | 3.72 MB | 1 年前3
爱奇艺 CDN 运维平台实践-张强实时性差 迭代低效 开发繁琐 CNC CT CMNET GWBN SCC IPTV 收集代理 HDFS 数据统计、展示 SSH-Based-Tools 运维痛点 – 设备管理 三大ISP 小ISP 纯内网 Ø 通过BGP、多线机房 实现连通 Ø 管理方便 Ø 部分需要单独打隧道 Ø 缺点: 节点上线复杂、 不可靠 Ø 依赖合作商网络情况 Ø 缺点: 配置复杂、登录 一些案例: Ø 数据统计 l 实时性差 l 迭代效率低 l 开发繁琐 Ø 设备管理 03 运维平台设计 架构演进大事记 整体架构设计 通用代理服务集群设计(Promise) 运维任务模型设计 应用配置管理 权限管理 运维平台Fast 整体架构 API接入层 通用代理服务(Promise) HTTP传输 ZMQ-Proxy KCP-Proxy 任务模板 生 成 器 配置管理 可扩展: 可以任意上线下线代理设备,自动摘除 l 智能路由: 自动探测最佳代理节点 l 接口简单: 支持HTTP、SDK方式使用 l 多协议: 支持控制流、数据流等场景的实时性和可靠性 l 模型: ü 数据传输类: 标准http模式 ü 消息控制类: sub/pub, push/pull, register/unregister ü 支持服务发现 Promise集群 CNC CT0 码力 | 34 页 | 1.75 MB | 1 年前3
openEuler 21.03 技术白皮书iSula:iSulad 支持本地卷管理,isula-build 新增镜像拉取、推送等功能。 • StratoVirt& 虚拟化:支持内存弹性、大页、增强 IO 子系统、通过多通道并发提升 IO 性能。 • OpenStack&Kubernetes:向云而生,集成两大主流云计算调度和管理软件,构筑云化基座 。 • HA 高可用集群方案:麒麟软件贡献的 HA 高可用集群方案,故障秒级切换。 繁荣社区生态: 效 的资源调度策略,最大化利用系统资源,改善用 户体验。 8. TCP 发包切换到了 Early Departure Time 模型: 解决原来 TCP 框架的限制,根据调度策略给数据 包设置 Early Departure Time 时间戳,避免大的 队列缓存带来的时延,同时大幅提升 TCP 性能。 9. 支持 MultiPath TCP 可在移动与数据场景提升性 能和可靠性:支持在负载均衡场景多条子流并行 03 技术白皮书 openEuler WHITE PAPER 云化基座 应用场景 2: 内核小版本升级 操作系统整个生命周期中,需要不断引入新特性来满足客户需要,这些内核特性对业务有非常大的作用(性能、安全与 调测等)。如果引入该特性,需要重启业务与重启主机,这样将导致业务客户端感知到中断,对用户不友好,利用内核 热升级,可以让客户无感知的情况下对引入新的内核特性。 内存分层扩展0 码力 | 18 页 | 1.30 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏务自动化、工具化、可视化。 数据驱动运维:基于大数据 的接入、存储、分析技术,对运 维数据进行全面挖掘和分析,实 现数据驱动自动化运维。 机器驱动运维:基于智能算法 的机器自我学习,训练机器智能运 维模型,实现无人值守和智能的运 维与运营。 数据化 2015--2017 智能化 2017—现在 蓝鲸目前在腾讯应用情况及发展方向 4个转型的绊脚石 有重客户端游戏,网页游戏,各类官网,移动终端游戏, 运行监控和故障管理 第三方监控接入 基础监控 采集 存储 检测 告警 故障自愈 蓝鲸平台 管控平台 PaaS平台:开发框架/API集成 统一配置管理 模型定义 自动采集 配置维护 拓扑视图 配置消费 统一运维门户 可视化大屏、统一报表、统一权限、移动运维 变更 流程融合 事件 问题 请求 知识库 SLA 服务目录 流程引擎 运维流程管理 配置 平台 容器平台 作业 平台 操作审计 事件推送 模型管理 实例管理 权限管理 拓扑管理 自动采集(采集适配器) 配置管理门户 数据分析 数据展示 数据质量 外部对接 功能示例 2、监控整体逻辑架构 监控采集 Agent插件采集 TCP/UDP HTTP(S) 协议采集 Agent Exporter 采集器 SNMP 脚本 第三方接入 API JMX 数据库 视图展示 监控大屏展示 监控拓扑展示 自定义仪表盘0 码力 | 26 页 | 8.25 MB | 1 年前3
Curve核心组件之Client - 网易数帆将请求发往leader节点CLIENT IO线程模型 用户线程 1. 用户调用接口,发起IO请求 2. AioWrite将请求封装成io task并放入任务队列 3. 放入任务队列后,异步请求发起成功,返回用户 IO拆分线程 4. 从任务队列取出任务后进行拆分 5. 拆分过程依赖元数据,可能会通过MDSClient向 MDS获取 6. 拆分成的子请求放入队列CLIENT IO线程模型 IO分发线程 7 nlock,在大量并发的情况下,会阻塞worker线程,也 存在瓶颈 std::mutex/spinlock 改成 bthread::Mutex …… 128深度、4K随机写欢 迎 大 家 参 与 C U R V E 项 目 ! github主页: https://opencurve.github.io/ github代码仓库: https://github.com/opencurve/curve0 码力 | 27 页 | 1.57 MB | 6 月前3
共 90 条
- 1
- 2
- 3
- 4
- 5
- 6
- 9













