GPU利用率 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

OpenShift Container Platform 4.14 机器管理

OpenShift Container Platform 实现中，它通过扩展计算机器设置 API 来与 Machine API 集成。您可以使用以下方法使用集群自动扩展来管理集群：为内核、节点、内存和 GPU 等资源设置集群范围的扩展限制设置优先级，以便集群对 pod 和新节点进行优先排序，而在不太重要的 pod 时不会上线设置扩展策略，以便您可以扩展节点，但不会缩减节点机器健康机器健康检查值，不要为 Spot 实例设置最大价格。 2.2.7. 将 GPU 节点添加到现有 OpenShift Container Platform 集群中您可以复制并修改默认计算机器集配置，以便为 AWS EC2 云供应商创建启用了 GPU 的机器集和机器。有关支持的实例类型的更多信息，请参阅以下 NVIDIA 文档： NVIDIA GPU Operator 社区支持列表 NVIDIA AI Enterprise MachineSet 定义并将结果输出到 JSON 文件。这将是启用了 GPU 的计算机器集定义的基础。 5. 编辑 JSON 文件，并对新 MachineSet 定义进行以下更改：将 worker 替换为 gpu。这将是新计算机集的名称。将新 MachineSet 定义的实例类型更改为 g4dn，其中包括 NVIDIA Tesla T4 GPU。要了解更多有关 AWS g4dn 实例类型的信息，请参阅加速计算。

0 码力 | 277 页 | 4.37 MB | 1 年前
3
OpenShift Container Platform 4.10 构建应用程序

maxScale 设置。并并发发目目标标决定了给定时间每个应用程序实例所需的并发请求数。并并发发限制限制决定了给定时间允许每个应用程序的并发请求数的限值。并并发发利用率利用率决定了在 Knative 扩展额外 pod 前必须满足并发请求限制的百分比，以处理额外的流量。自自动扩动扩展窗口展窗口定义了平均时间窗口，以便在自动扩展器不处于 panic 模式时提供缩放决策的输 requests 和 limits。目前，扩展资源只允许使用带有前缀 requests. 配额项。以下是如何为 GPU 资源 nvidia.com/gpu 设置资源配额的示例场景。流程流程 1. 确定集群中某个节点中有多少 GPU 可用。例如：输输出示例出示例本例中有 2 个 GPU 可用。 2. 在命名空间 nvidia 中设置配额。本例中配额为 1：输输出示例出示例 resourcequota 'Capacity|Allocatable|gpu' openshift.com/gpu-accelerator=true Capacity: nvidia.com/gpu: 2 Allocatable: nvidia.com/gpu: 2 nvidia.com/gpu 0 0 # cat gpu-quota.yaml apiVersion:

0 码力 | 198 页 | 3.62 MB | 1 年前
3
OpenShift Container Platform 4.6 节点

Utilization。。为为所有所有 pod 指定指定 averageUtilization 和一个目和一个目标标平均内存利用率，以平均内存利用率，以请请求内存的求内存的百分比表示。目百分比表示。目标标 pod 必必须须配置内存配置内存请请求。求。可可选插件，您无需编编写自定写自定义义代代码码，就能在，就能在 OpenShift Container Platform pod 中使用特定的中使用特定的设设备类备类型，如型，如 GPU、、InfiniBand 或其他需要供或其他需要供应应商商专专用初始化和用初始化和设设置的置的类类似似计计算算资资源。源。 2.8.1. 了解了解设备设备插件用 (RPC)：：设备设备插件示例插件示例适用于适用于 COS 型操作系型操作系统统的的 Nvidia GPU 设备设备插件插件 Nvidia 官方官方 GPU 设备设备插件插件 service DevicePlugin { // GetDevicePluginOptions returns

0 码力 | 404 页 | 3.60 MB | 1 年前
3
OpenShift Container Platform 4.9 构建应用程序

服务可在任意给定时间运行的 pod 数量上限。这也被称为 maxScale 设置。并发目标决定了给定时间每个应用程序实例所需的并发请求数。并发限制决定了给定时间允许每个应用程序的并发请求数的限值。并发利用率决定了在 Knative 扩展额外 pod 前必须满足并发请求限制的百分比，以处理额外的流量。自动扩展窗口定义了平均时间窗口，以便在自动扩展器不处于 panic 模式时提供缩放决策的输入。 requests 和 limits。目前，扩展资源只允许使用带有前缀 requests. 配额项。以下是如何为 GPU 资源 nvidia.com/gpu 设置资源配额的示例场景。流程 1. 确定集群中某个节点中有多少 GPU 可用。例如：输输出示例出示例本例中有 2 个 GPU 可用。 2. 在命名空间 nvidia 中设置配额。本例中配额为 1：输输出示例出示例 resourcequota 'Capacity|Allocatable|gpu' openshift.com/gpu-accelerator=true Capacity: nvidia.com/gpu: 2 Allocatable: nvidia.com/gpu: 2 nvidia.com/gpu 0 0 # cat gpu-quota.yaml apiVersion:

0 码力 | 184 页 | 3.36 MB | 1 年前
3
OpenShift Container Platform 4.10 虚拟化

自定义资源(CR)配置为在安装驱动程序前启用介质设备，则不会启用介质设备。更新可能会触发此问题。例如，如果在 daemonset 之前更新 virt-handler，它安装 NVIDIA 驱动程序，则节点无法提供虚拟机 GPU。(BZ#2046298) 作为临时解决方案： 1. 从 HyperConverged CR 中删除 mediatedDevicesConfiguration 和 permittedHostDevices。 (number of graphics devices) 2 虚拟机请求的虚拟 CPU 数量虚拟机请求的虚拟图形卡数如果您的环境包含单一根 I/O 虚拟化（SR-IOV）网络设备或图形处理单元（GPU），请为每个设备分配 1 GiB 额外的内存开销。 4.1.2.2. CPU 开开销使用以下内容计算 OpenShift Virtualization 的集群处理器开销要求。每个虚拟机的 CPU 章章虚虚拟拟机机 57 表表 8.1. 虚虚拟拟机字段机字段标签页标签页字段或功能字段或功能详情标签注解描述 CPU/内存引导模式引导顺序 GPU 设备主机设备 SSH 访问 YAML 查看、编辑或下载自定义资源。调度节点选择器容限（Tolerations）关联性规则专用资源驱除策略 Descheduler 设置

0 码力 | 307 页 | 3.45 MB | 1 年前
3
OpenShift Container Platform 4.9 节点

对于内存使用率，使用 metrics 参数。为内存使用率指定 memory 。设置 Utilization。为所有 pod 指定 averageUtilization 和一个目标平均内存利用率，以请求内存的百分比表示。目标 pod 必须配置内存请求。可选：指定一个扩展策略来控制扩展或缩减率。 2. 创建 Pod 横向自动扩展：例如：输输出示例出示例 3. 验证 pod very 2.8. 使用设备插件通过 POD 访问外部资源通过设备插件，您可以在 OpenShift Container Platform pod 中使用需要特定厂商初始化和设置的特定设备类型(GPU、InfiniBand 或其他类似的计算资源)，而无需编写自定义代码。 2.8.1. 了解设备插件设备插件提供一致且可移植的解决方案，用于在集群中消耗硬件设备。设备插件通过一种扩展机制提供对 disappears, ListAndWatch 第第 2 章章使用使用 POD 71 设备设备插件示例插件示例适用于 COS 型操作系统的 NVIDIA GPU 设备插件 NVIDIA 官方 GPU 设备插件 Solarflare 设备插件 kubevirt 设备插件： vfio 和 kvm 用于 IBM Crypto Express (CEX)卡的 Kubernetes

0 码力 | 374 页 | 3.80 MB | 1 年前
3
OpenShift Container Platform 4.14 电源监控

kepler_node_energy_stat 使用模型服务器中使用的容器资源利用率控制组指标标记的节点有多个指标。 kepler_node_accelerator_intel_qat 在某个节点上利用 Intel QAT 加速器。如果系统包含 Intel QATs，Kepler 可以通过遥测来计算节点的 QAT 的利用率。指指标标名称名称描述描述 5.4. 其他资源为用户定义的项目启用监控

0 码力 | 20 页 | 350.27 KB | 1 年前
3
OpenShift Container Platform 4.14 存储

指标每 10 分钟更新一次，或者在精简池中有变化时（如新逻辑卷创建）更新。 4.12.3.5.2. 警警报当精简池和卷组都被用尽后，进一步的操作都会失败，并可能导致数据丢失。LVM 存储会在利用率超过特定值时发送有关使用精简池和卷组的以下警报： RHACM 中的中的逻辑逻辑卷管理器集群的警卷管理器集群的警报报警警报报描述描述 VolumeGroupUsageAtThresholdNearFull 当卷组中的精简池数据利用率超过节点上的 75% 时，会触发此警报。需要删除数据或精简池扩展。 ThinPoolDataUsageAtThresholdCritical 当卷组中的精简池数据利用率超过节点上的 85% 时，会触发此警报。需要删除数据或精简池扩展。 ThinPoolMetaDataUsageAtThresholdNearFul l 当卷组中的精简池元数据利用率超过节点上的 75% 75% 时，会触发此警报。需要删除数据或精简池扩展。 ThinPoolMetaDataUsageAtThresholdCritical 当卷组中的精简池元数据利用率超过节点上的 85% 时，会触发此警报。需要删除数据或精简池扩展。其他其他资源源 Observability（可观察性）添加自定义指标 4.12.3.6. 扩扩展展单节单节点点 OpenShift 集群的存集群的存储

0 码力 | 215 页 | 2.56 MB | 1 年前
3
OpenShift Container Platform 4.2 Service Mesh 的安装、使用和发行注记信息

控制台中的开发者视角开开发发者者视角提供了几个用来部署应用程序、服务和数据库的内置方法。在开开发发者者视角中，您可以：查看组件上滚动和重新创建推出部署的实时视觉化。查看应用状态、资源利用率、项目事件流和配额消耗。将您的项目与他人共享。通过在项目上运行 Prometheus Query Language(PromQL)查询并查看图表中呈现的指标来排除应用程序的问题。此指标数据

0 码力 | 44 页 | 651.51 KB | 1 年前
3
OpenShift Container Platform 4.13 虚拟化

Foundation，Ceph RBD 卷优先于 CephFS 卷。重要重要您无法实时迁移使用以下配置的虚拟机：具有 ReadWriteOnce (RWO) 访问模式的存储卷透传功能，比如 GPU 对于这些虚拟机，不要将 evictionStrategy 字段设置为 LiveMigrate。 1.3. 单节点 OPENSHIFT 的不同您可以在单节点 OpenShift 上安装 OpenShift Network transfer 图。默认情况下，Network transfer 显示所有网络的总和。要查看特定网络的分类，请点 Breakdown by network。硬件硬件设备设备标题 GPU 和主机设备警警报报标题 OpenShift Virtualization 警报，按严重性分组快照快照标题进进行快照行快照和快照快照表。网网络络接口接口标题 SSH 点复制图标将 virtctl ssh 命令复制到剪贴板。 SSH 服务类型选项选择 SSH over LoadBalancer 或 SSH over NodePort。 GPU 设备点编辑图标添加 GPU 设备。主机设备点编辑图标添加主机设备。无头模式点编辑图标启用无头模式。 Services 部分如果安装了 QEMU 客户机代理，则显示服务。活跃用户部分如果安装了

0 码力 | 393 页 | 4.53 MB | 1 年前
3

共 19 条前往

页

OpenShift Container Platform 4.14 机器管理 4.10 构建应用程序应用程序 4.6 节点 4.9 虚拟虚拟化电源监控存储 4.2 Service Mesh 安装使用发行注记信息 4.13

分类

语言

格式

OpenShift Container Platform 4.14 机器管理

OpenShift Container Platform 4.10 构建应用程序

OpenShift Container Platform 4.6 节点

OpenShift Container Platform 4.9 构建应用程序

OpenShift Container Platform 4.10 虚拟化

OpenShift Container Platform 4.9 节点

OpenShift Container Platform 4.14 电源监控

OpenShift Container Platform 4.14 存储

OpenShift Container Platform 4.2 Service Mesh 的安装、使用和发行注记信息

OpenShift Container Platform 4.13 虚拟化