GPU Resource Management On JDOSGPU Resource Management On JDOS 梁永清 liangyongqing1@jd.com 提供的服务 1. 用于实验的 GPU 容器 2.基于 Kubeflow 的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器,不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务0 码力 | 11 页 | 13.40 MB | 1 年前3
Pod 容忍节点异常时间调整Pod 容忍节点异常时间调整 容忍节点异常时间调整 1. 原理说明 原理说明 Kubernetes 集群节点处于异常状态之后需要有⼀个等待时间,才会对节点上的 Pod 进⾏驱逐。那么针对部分关键业务,是否可以调整这个时间,便于在节点发⽣异常时及时将 Pod 驱逐 并在别的健康节点上重建? 要解决这个问题,我们⾸先要了解 Kubernetes 在节点异常时驱逐 Pod 的机制。 在 Kubernetes 这两个 feature gate,节点及其上 Pod 的⽣命周期管理将通过节点的 Condition 和 Taint 来进⾏,Kubernetes 会不断地检查所有节点状态,设置对应的 Condition,根据 Condition 为节点设置对应的 Taint,再根据 Taint 来驱逐节点上的 Pod。 同时在创建 Pod 时会默认为 Pod 添加相应的 tolerationSeconds tolerationSeconds 参数,指定当节点出现异常(如 NotReady)时 Pod 还将在这个节点上运⾏多⻓的时间。 那么,节点发⽣异常到 Pod 被驱逐的时间,就取决于两个参数:1. 节点实际异常到被判断为不健康的时间;2. Pod 对节点不健康的容忍时间。 Kubernetes 集群中默认节点实际异常到被判断为不健康的时间为 40s,Pod 对节点 NotReady 的容忍时间为 5min,也就是说,节点实际异常0 码力 | 4 页 | 104.64 KB | 1 年前3
Kubernetes 异常配置检测框架顾静, 阿里云 邓隽, 阿里云 Kubernetes 异常配置检测框架 我们来自阿里云容器服务 • 顾静,研发工程师 • 邓隽,技术专家 我们参与打造 • 容器服务(ACK/ASK) • 容器镜像服务(ACR) • 服务网格(ASM) • … 1 Kubernetes 典型异常 2 检测框架演进 3 生产实践 4 总结 Kubernetes 使用日常 • 应用部署 • API Server Pod 异常 影响 • 通过 API Server 访问集群概率失败 • 升级集群失败 Load Balancer Service Master API Server Pod Master API Server Pod Master API Server Pod Kubernetes 典型异常 网络异常 • 安全组、路由表配置错误 • 节点防火墙软件等修改 网络链路长,手动排查成本高 异常影响 • 应用间无法正常通信 • 集群内 Controller 无法正常工作 YUM 安装自动运维工具 自动安装依赖 firewalld 网络未知原因导致异常 Node Pod eth0 调用 iptables 增加阻断规则 FORWARD_IN_ZONES_SOURCE FORWARD_OUT_ZONES 容器网络不通 异常 VS 异常检测 ? 云原生操作系统0 码力 | 31 页 | 9.57 MB | 1 年前3
1.6 resource scheduling & container technology for financial service_yujunGopher China 2015 Resource Scheduling & Container Technology for Financial Service 动态资源管理和容器技术 在金融行业的架构探索和明天 余军 Gopher China 2015 Gopher China 2015 China 2015 求解之路的探索 n 他们是否解决了我们的问题? n No ① Mesos 采用了DRF(Dominant Resource Fairness) 调度机制。 YARN自带FIFO、Capacity Scheduler和Fair Scheduler(借鉴了 Mesos的DRF)。 ② Mes oop中Capacity Scheduler的调度机制,将所有资源分成若干个queue,每个 queue分配一定量的资源,每个user有一定的资源使用上限。 ③ Mesos采用了Resource Offer机制,这种调度机制面临着资源碎 片问题,即:每个节点上的资源不可能全部被分配完,剩下的一 点可能不足以让任何任务运行,这样,便产生了类似于操作系统 中的内存碎片问题。 0 码力 | 21 页 | 27.20 MB | 1 年前3
Compile-Time Compression and Resource Generation with C++20that take a user-suppiled lambda to generate the data needed to render our desired compile-time resource! These are e�ectively templated functions, but we will use the cleaner auto parameter syntax for0 码力 | 59 页 | 1.86 MB | 6 月前3
Java 应用系统开发 - ServletContext 和 Web 配置应用环境对象 Java EE Web 的配置 Servlet 配置对象 转发和重定向 本节习题 Java 应用系统开发 ServletContext 和 Web 配置 王晓东 wangxiaodong@ouc.edu.cn 中国海洋大学 November 26, 2018 大纲 Web 应用环境对象 Java EE Web 的配置 Servlet 配置对象 转发和重定向 本节习题 学习目标 ServletContext。 2. 了解 Web 应用的配置方法。 3. 掌握 MVC 模式 Web 开发中发挥核心作用的转发,区别转 发与重定向。 大纲 Web 应用环境对象 Java EE Web 的配置 Servlet 配置对象 转发和重定向 本节习题 大纲 Web 应用环境对象 Java EE Web 的配置 Servlet 配置对象 转发和重定向 本节习题 大纲 Web 应用环境对象 应用环境对象 Java EE Web 的配置 Servlet 配置对象 转发和重定向 本节习题 接下来⋯ Web 应用环境对象 Java EE Web 的配置 Servlet 配置对象 转发和重定向 本节习题 大纲 Web 应用环境对象 Java EE Web 的配置 Servlet 配置对象 转发和重定向 本节习题 Web 应用环境对象 将 Web 应用部署到服务器上,启动 Web0 码力 | 33 页 | 668.91 KB | 1 年前3
《玩转webpack》 第四章 进阶篇: 编写可维护的 webpack 构建配置webpack 构建配置 04 进阶篇:webpack 构建速度和体积优化策略 05 原理篇:通过源码掌握 webpack 打包原理 06 原理篇:编写 Loader 和插件 07 实战篇:React 全家桶 和 webpack 开发商城项目 08 基础篇:webpack 进阶用法 03 构建配置抽离成 npm 包的意义 可维护性 通用性 质量 ·业务开发者无需关注构建配置 ·统一团队构建脚本 ·统一团队构建脚本 ·构建配置合理的拆分 ·README 文档、ChangeLog 文档等 ·冒烟测试、单元测试、测试覆盖率 ·持续集成 构建配置管理的可选方案 将构建配置设计成一个库,比如:hjs-webpack、Neutrino、webpack-blocks 通过多个配置文件管理不同环境的构建,webpack --config 参数进行控制 抽成一个工具进行管理,比如:create-react-app eact-app, kyt, nwb 将所有的配置放在一个文件,通过 --env 参数控制分支选择 构建配置包设计 通过多个配置文件管理不同环境的 webpack 配置 抽离成一个 npm 包统一管理 ·开发环境:webpack.dev.js ·生产环境:webpack.prod.js ·规范:Git commit日志、README、ESLint 规范、Semver 规范 ·质量:冒烟测试、单元测试、测试覆盖率和0 码力 | 30 页 | 5.38 MB | 1 年前3
OpenShift Container Platform 4.9 节点Platform 4.9 节点 在 OpenShift Container Platform 中配置和管理节点 Last Updated: 2023-08-27 OpenShift Container Platform 4.9 节点 在 OpenShift Container Platform 中配置和管理节点 Enter your first name here. Enter your surname All other trademarks are the property of their respective owners. 摘要 摘要 本文提供有关在集群中配置和管理节点、Pod 和容器的说明。它还提供有关配置 Pod 调度和放置、 使用作业(job)和 DaemonSet 来自动执行操作,以及确保集群保持高效性的其他任务信息。 . . . . . . . . . . . . . . 管理操作 增强操作 1.2. 关于 POD 读取操作 管理操作 增强操作 1.3. 关于容器 第 第 2 章 章 使用 使用 POD 2.1. 使用 POD 2.1.1. 了解 pod 2.1.2. pod 配置示例 2.1.3. 其他资源 2.2. 查看 POD 2.2.1. 关于 pod 2.2.2. 查看项目中的 pod 2.2.3. 查看 pod 用量统计 2.2.4. 查看资源日志0 码力 | 374 页 | 3.80 MB | 1 年前3
OpenShift Container Platform 4.6 节点Platform 4.6 节点 在 OpenShift Container Platform 中配置和管理节点 Last Updated: 2023-02-27 OpenShift Container Platform 4.6 节点 在 OpenShift Container Platform 中配置和管理节点 Enter your first name here. Enter your surname All other trademarks are the property of their respective owners. 摘要 摘要 本文提供有关在集群中配置和管理节点、Pod 和容器的说明。它还提供有关配置 Pod 调度和放置、 使用作业(job)和 DaemonSet 来自动执行操作,以及确保集群保持高效性的其他任务信息。 . . . . . . . . . . . . . . 功能增强操作 1.2. 关于 POD 读取操作 管理操作 功能增强操作 1.3. 关于容器 第 第 2 章 章 使用 使用 POD 2.1. 使用 POD 2.1.1. 了解 pod 2.1.2. pod 配置示例 2.1.3. 其他资源 2.2. 查看 POD 2.2.1. 关于 pod 2.2.2. 查看项目中的 pod 2.2.3. 查看 pod 用量统计 2.2.4. 查看资源日志0 码力 | 404 页 | 3.60 MB | 1 年前3
OpenShift Container Platform 4.13 CLI 工具OpenStack community. All other trademarks are the property of their respective owners. 摘要 摘要 本文档提供有关安装、配置和使用 OpenShift Container Platform 命令行工具的信息。它还包含 CLI 命令的参考信息,以及如何使用它们的示例。 . . . . . . . . . . . . . 1. CLI 工具列表 第 第 2 章 章 OPENSHIFT CLI (OC) 2.1. OPENSHIFT CLI 入门 2.2. 配置 OPENSHIFT CLI 2.3. OC 和 KUBECTL 命令的使用方法 2.4. 管理 CLI 配置集 2.5. 使用插件扩展 OPENSHIFT CLI 2.6. 使用 KREW 管理 CLI 插件 2.7. OPENSHIFT CLI 开发人员命令参考 SERVERLESS 的 的 KNATIVE CLI 4.1. 主要特性 4.2. 安装 KNATIVE CLI 第 第 5 章 章 PIPELINES CLI (TKN) 5.1. 安装 TKN 5.2. 配置 OPENSHIFT PIPELINES TKN CLI 5.3. OPENSHIFT PIPELINES TKN 参考 第 第 6 章 章 OPM CLI 6.1. 安装 OPM CLI 6.20 码力 | 128 页 | 1.11 MB | 1 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100













