OpenShift Container Platform 4.14 机器管理OpenShift Container Platform 实现中,它通过扩展计算机器 设置 API 来与 Machine API 集成。您可以使用以下方法使用集群自动扩展来管理集群: 为内核、节点、内存和 GPU 等资源设置集群范围的扩展限制 设置优先级,以便集群对 pod 和新节点进行优先排序,而在不太重要的 pod 时不会上线 设置扩展策略,以便您可以扩展节点,但不会缩减节点 机器健康 机器健康检查 值,不要为 Spot 实例设 置最大价格。 2.2.7. 将 GPU 节点添加到现有 OpenShift Container Platform 集群中 您可以复制并修改默认计算机器集配置,以便为 AWS EC2 云供应商创建启用了 GPU 的机器集和机器。 有关支持的实例类型的更多信息,请参阅以下 NVIDIA 文档: NVIDIA GPU Operator 社区支持列表 NVIDIA AI Enterprise MachineSet 定义并将结果输出到 JSON 文件。这将是启用了 GPU 的计算机器集定义的基础。 5. 编辑 JSON 文件,并对新 MachineSet 定义进行以下更改: 将 worker 替换为 gpu。这将是新计算机集的名称。 将新 MachineSet 定义的实例类型更改为 g4dn,其中包括 NVIDIA Tesla T4 GPU。要了解更 多有关 AWS g4dn 实例类型的信息,请参阅加速计算。0 码力 | 277 页 | 4.37 MB | 1 年前3
OpenShift Container Platform 4.10 构建应用程序maxScale 设置。 并 并发 发目 目标 标 决定了给定时间每个应用程序实例所需的并发请求数。 并 并发 发限制 限制 决定了给定时间允许每个应用程序的并发请求数的限值。 并 并发 发利用率 利用率 决定了在 Knative 扩展额外 pod 前必须满足并发请求限制的百分比,以处理额外 的流量。 自 自动扩 动扩展窗口 展窗口定义了平均时间窗口,以便在自动扩展器不处于 panic 模式时提供缩放决策的输 requests 和 limits。目前,扩 展资源只允许使用带有前缀 requests. 配额项。以下是如何为 GPU 资源 nvidia.com/gpu 设置资源配额 的示例场景。 流程 流程 1. 确定集群中某个节点中有多少 GPU 可用。例如: 输 输出示例 出示例 本例中有 2 个 GPU 可用。 2. 在命名空间 nvidia 中设置配额。本例中配额为 1: 输 输出示例 出示例 resourcequota 'Capacity|Allocatable|gpu' openshift.com/gpu-accelerator=true Capacity: nvidia.com/gpu: 2 Allocatable: nvidia.com/gpu: 2 nvidia.com/gpu 0 0 # cat gpu-quota.yaml apiVersion:0 码力 | 198 页 | 3.62 MB | 1 年前3
OpenShift Container Platform 4.6 节点Utilization。 。 为 为所有 所有 pod 指定 指定 averageUtilization 和一个目 和一个目标 标平均内存利用率,以 平均内存利用率,以请 请求内存的 求内存的 百分比表示。目 百分比表示。目标 标 pod 必 必须 须配置内存 配置内存请 请求。 求。 可 可选 插件,您无需编 编写自定 写自定义 义代 代码 码,就能在 ,就能在 OpenShift Container Platform pod 中使用特定的 中使用特定的设 设 备类 备类型,如 型,如 GPU、 、InfiniBand 或其他需要供 或其他需要供应 应商 商专 专用初始化和 用初始化和设 设置的 置的类 类似 似计 计算 算资 资源。 源。 2.8.1. 了解 了解设备 设备插件 用 (RPC): : 设备 设备插件示例 插件示例 适用于 适用于 COS 型操作系 型操作系统 统的 的 Nvidia GPU 设备 设备插件 插件 Nvidia 官方 官方 GPU 设备 设备插件 插件 service DevicePlugin { // GetDevicePluginOptions returns0 码力 | 404 页 | 3.60 MB | 1 年前3
OpenShift Container Platform 4.9 构建应用程序服务可在任意给定时间运行的 pod 数量上限。这也被称为 maxScale 设置。 并发目标 决定了给定时间每个应用程序实例所需的并发请求数。 并发限制 决定了给定时间允许每个应用程序的并发请求数的限值。 并发利用率 决定了在 Knative 扩展额外 pod 前必须满足并发请求限制的百分比,以处理额外 的流量。 自动扩展窗口定义了平均时间窗口,以便在自动扩展器不处于 panic 模式时提供缩放决策的输 入。 requests 和 limits。目前,扩 展资源只允许使用带有前缀 requests. 配额项。以下是如何为 GPU 资源 nvidia.com/gpu 设置资源配额 的示例场景。 流程 1. 确定集群中某个节点中有多少 GPU 可用。例如: 输 输出示例 出示例 本例中有 2 个 GPU 可用。 2. 在命名空间 nvidia 中设置配额。本例中配额为 1: 输 输出示例 出示例 resourcequota 'Capacity|Allocatable|gpu' openshift.com/gpu-accelerator=true Capacity: nvidia.com/gpu: 2 Allocatable: nvidia.com/gpu: 2 nvidia.com/gpu 0 0 # cat gpu-quota.yaml apiVersion:0 码力 | 184 页 | 3.36 MB | 1 年前3
OpenShift Container Platform 4.10 虚拟化自定义资源(CR)配置为在安装驱动程序前启用介质设备,则不会启 用介质设备。更新可能会触发此问题。例如,如果在 daemonset 之前更新 virt-handler,它安装 NVIDIA 驱动程序,则节点无法提供虚拟机 GPU。(BZ#2046298) 作为临时解决方案: 1. 从 HyperConverged CR 中删除 mediatedDevicesConfiguration 和 permittedHostDevices。 (number of graphics devices) 2 虚拟机请求的虚拟 CPU 数量 虚拟机请求的虚拟图形卡数 如果您的环境包含单一根 I/O 虚拟化(SR-IOV)网络设备或图形处理单元(GPU),请为每个设备分配 1 GiB 额外的内存开销。 4.1.2.2. CPU 开 开销 使用以下内容计算 OpenShift Virtualization 的集群处理器开销要求。每个虚拟机的 CPU 章 章 虚 虚拟 拟机 机 57 表 表 8.1. 虚 虚拟 拟机字段 机字段 标签页 标签页 字段或功能 字段或功能 详情 标签 注解 描述 CPU/内存 引导模式 引导顺序 GPU 设备 主机设备 SSH 访问 YAML 查看、编辑或下载自定义资源。 调度 节点选择器 容限(Tolerations) 关联性规则 专用资源 驱除策略 Descheduler 设置0 码力 | 307 页 | 3.45 MB | 1 年前3
OpenShift Container Platform 4.9 节点对于内存使用率,使用 metrics 参数。 为内存使用率指定 memory 。 设置 Utilization。 为所有 pod 指定 averageUtilization 和一个目标平均内存利用率,以请求内存的百分比 表示。目标 pod 必须配置内存请求。 可选:指定一个扩展策略来控制扩展或缩减率。 2. 创建 Pod 横向自动扩展: 例如: 输 输出示例 出示例 3. 验证 pod very 2.8. 使用设备插件通过 POD 访问外部资源 通过设备插件,您可以在 OpenShift Container Platform pod 中使用需要特定厂商初始化和设置的特定设 备类型(GPU、InfiniBand 或其他类似的计算资源),而无需编写自定义代码。 2.8.1. 了解设备插件 设备插件提供一致且可移植的解决方案,用于在集群中消耗硬件设备。设备插件通过一种扩展机制提供对 disappears, ListAndWatch 第 第 2 章 章 使用 使用 POD 71 设备 设备插件示例 插件示例 适用于 COS 型操作系统的 NVIDIA GPU 设备插件 NVIDIA 官方 GPU 设备插件 Solarflare 设备插件 kubevirt 设备插件: vfio 和 kvm 用于 IBM Crypto Express (CEX)卡的 Kubernetes0 码力 | 374 页 | 3.80 MB | 1 年前3
OpenShift Container Platform 4.14 电源监控kepler_node_energy_stat 使用模型服务器中使用的容器资源利用率控制组指标 标记的节点有多个指标。 kepler_node_accelerator_intel_qat 在某个节点上利用 Intel QAT 加速器。如果系统包含 Intel QATs,Kepler 可以通过遥测来计算节点的 QAT 的利用率。 指 指标 标名称 名称 描述 描述 5.4. 其他资源 为用户定义的项目启用监控0 码力 | 20 页 | 350.27 KB | 1 年前3
OpenShift Container Platform 4.14 存储指标每 10 分钟更新一次,或者在精简池中有变化时(如新逻辑卷创建)更新。 4.12.3.5.2. 警 警报 当精简池和卷组都被用尽后,进一步的操作都会失败,并可能导致数据丢失。LVM 存储会在利用率超过 特定值时发送有关使用精简池和卷组的以下警报: RHACM 中的 中的逻辑 逻辑卷管理器集群的警 卷管理器集群的警报 报 警 警报 报 描述 描述 VolumeGroupUsageAtThresholdNearFull 当卷组中的精简池数据利用率超过节点上的 75% 时, 会触发此警报。需要删除数据或精简池扩展。 ThinPoolDataUsageAtThresholdCritical 当卷组中的精简池数据利用率超过节点上的 85% 时, 会触发此警报。需要删除数据或精简池扩展。 ThinPoolMetaDataUsageAtThresholdNearFul l 当卷组中的精简池元数据利用率超过节点上的 75% 75% 时,会触发此警报。需要删除数据或精简池扩展。 ThinPoolMetaDataUsageAtThresholdCritical 当卷组中的精简池元数据利用率超过节点上的 85% 时,会触发此警报。需要删除数据或精简池扩展。 其他 其他资源 源 Observability(可观察性) 添加自定义指标 4.12.3.6. 扩 扩展 展单节 单节点 点 OpenShift 集群的存 集群的存储0 码力 | 215 页 | 2.56 MB | 1 年前3
OpenShift Container Platform 4.2
Service Mesh 的安装、使用和发行注记信息控制台中的开发者视角 开 开发 发者 者视角提供了几个用来部署应用程序、服务和数据库的内置方法。在开 开发 发者 者视角中,您可以: 查看组件上滚动和重新创建推出部署的实时视觉化。 查看应用状态、资源利用率、项目事件流和配额消耗。 将您的项目与他人共享。 通过在项目上运行 Prometheus Query Language(PromQL)查询并查看图表中呈现的指标来排除 应用程序的问题。此指标数据0 码力 | 44 页 | 651.51 KB | 1 年前3
OpenShift Container Platform 4.13 虚拟化Foundation,Ceph RBD 卷优先于 CephFS 卷。 重要 重要 您无法实时迁移使用以下配置的虚拟机: 具有 ReadWriteOnce (RWO) 访问模式的存储卷 透传功能,比如 GPU 对于这些虚拟机,不要将 evictionStrategy 字段设置为 LiveMigrate。 1.3. 单节点 OPENSHIFT 的不同 您可以在单节点 OpenShift 上安装 OpenShift Network transfer 图。默认情况下,Network transfer 显示所有网络的总和。要查看特定网络的分类,请点 Breakdown by network。 硬件 硬件设备 设备标题 GPU 和主机设备 警 警报 报标题 OpenShift Virtualization 警报,按严重性分组 快照 快照标题 进 进行快照 行快照 和 快照 快照 表。 网 网络 络接口 接口标题 SSH 点复制图标将 virtctl ssh 命令复制到剪贴板。 SSH 服务类型选项 选择 SSH over LoadBalancer 或 SSH over NodePort。 GPU 设备 点编辑图标添加 GPU 设备。 主机设备 点编辑图标添加主机设备。 无头模式 点编辑图标启用无头模式。 Services 部分 如果安装了 QEMU 客户机代理,则显示服务。 活跃用户部分 如果安装了0 码力 | 393 页 | 4.53 MB | 1 年前3
共 19 条
- 1
- 2













