Pod 容忍节点异常时间调整Pod 容忍节点异常时间调整 容忍节点异常时间调整 1. 原理说明 原理说明 Kubernetes 集群节点处于异常状态之后需要有⼀个等待时间,才会对节点上的 Pod 进⾏驱逐。那么针对部分关键业务,是否可以调整这个时间,便于在节点发⽣异常时及时将 Pod 驱逐 并在别的健康节点上重建? 要解决这个问题,我们⾸先要了解 Kubernetes 在节点异常时驱逐 Pod 的机制。 在 Kubernetes 这两个 feature gate,节点及其上 Pod 的⽣命周期管理将通过节点的 Condition 和 Taint 来进⾏,Kubernetes 会不断地检查所有节点状态,设置对应的 Condition,根据 Condition 为节点设置对应的 Taint,再根据 Taint 来驱逐节点上的 Pod。 同时在创建 Pod 时会默认为 Pod 添加相应的 tolerationSeconds tolerationSeconds 参数,指定当节点出现异常(如 NotReady)时 Pod 还将在这个节点上运⾏多⻓的时间。 那么,节点发⽣异常到 Pod 被驱逐的时间,就取决于两个参数:1. 节点实际异常到被判断为不健康的时间;2. Pod 对节点不健康的容忍时间。 Kubernetes 集群中默认节点实际异常到被判断为不健康的时间为 40s,Pod 对节点 NotReady 的容忍时间为 5min,也就是说,节点实际异常0 码力 | 4 页 | 104.64 KB | 1 年前3
Kubernetes开源书 - 周立12-Master与Node的通信 13-Node 14-Pod 15-Replica Set 16-Deployment 17-StatefulSet 18-Daemon Set 19-配置最佳实践 20-管理容器的计算资源 21-Kubernetes资源分配 22-将Pod分配到Node 23-容忍与污点 24-Secret 25-Pod优先级和抢占 26-Service 27-Ingress Distributing secrets Checking application health Replicating application instances Using Horizontal Pod Autoscaling Naming and discovering Balancing loads Rolling updates Monitoring resources Master组件提供K8s集群的控制⾯板。Master对集群进⾏全局决策(例如调度),以及检测和响应集群事件(例如:当 replication controller所设置的 replicas 不够时,启动⼀个新的Pod)。 Master可在集群中的任意节点上运⾏。然⽽,简单起⻅,设置脚本通常在同⼀个VM上启动所有Master组件,并且不会 在该VM上运⾏⽤户的容器。请阅读 Building High-Availability0 码力 | 135 页 | 21.02 MB | 1 年前3
OpenShift Container Platform 4.6 节点other trademarks are the property of their respective owners. 摘要 摘要 本文提供有关在集群中配置和管理节点、Pod 和容器的说明。它还提供有关配置 Pod 调度和放置、 使用作业(job)和 DaemonSet 来自动执行操作,以及确保集群保持高效性的其他任务信息。 . . . . . . . . . . . . . . . . 功能增强操作 1.2. 关于 POD 读取操作 管理操作 功能增强操作 1.3. 关于容器 第 第 2 章 章 使用 使用 POD 2.1. 使用 POD 2.1.1. 了解 pod 2.1.2. pod 配置示例 2.1.3. 其他资源 2.2. 查看 POD 2.2.1. 关于 pod 2.2.2. 查看项目中的 pod 2.2.3. 查看 pod 用量统计 2.2.4. 查看资源日志 查看资源日志 2.3. 为 POD 配置 OPENSHIFT CONTAINER PLATFORM 集群 2.3.1. 配置 pod 重启后的行为 2.3.2. 限制可供 pod 使用的带宽 2.3.3. 了解如何使用 pod 中断预算来指定必须在线的 pod 数量 2.3.3.1. 使用 pod 中断预算指定必须在线的 pod 数量 2.3.4. 使用关键 pod 防止删除 pod 2.4. 使用0 码力 | 404 页 | 3.60 MB | 1 年前3
OpenShift Container Platform 4.9 节点other trademarks are the property of their respective owners. 摘要 摘要 本文提供有关在集群中配置和管理节点、Pod 和容器的说明。它还提供有关配置 Pod 调度和放置、 使用作业(job)和 DaemonSet 来自动执行操作,以及确保集群保持高效性的其他任务信息。 . . . . . . . . . . . . . . . . 管理操作 增强操作 1.2. 关于 POD 读取操作 管理操作 增强操作 1.3. 关于容器 第 第 2 章 章 使用 使用 POD 2.1. 使用 POD 2.1.1. 了解 pod 2.1.2. pod 配置示例 2.1.3. 其他资源 2.2. 查看 POD 2.2.1. 关于 pod 2.2.2. 查看项目中的 pod 2.2.3. 查看 pod 用量统计 2.2.4. 查看资源日志 查看资源日志 2.3. 为 POD 配置 OPENSHIFT CONTAINER PLATFORM 集群 2.3.1. 配置 pod 重启后的行为 2.3.2. 限制可供 pod 使用的带宽 2.3.3. 了解如何使用 pod 中断预算来指定必须在线的 pod 数量 2.3.3.1. 使用 pod 中断预算指定必须在线的 pod 数量 2.3.4. 使用关键 pod 防止删除 pod 2.4. 使用0 码力 | 374 页 | 3.80 MB | 1 年前3
开课吧基于混合云的Kubernetes平台落地实践-程亮DestinationRule Service Kubernetes层 POD-2 pilot-agent Container v5897 POD-1 pilot-agent Containermaster POD-n … jenkins Client Chrome • 无状态服务的扩缩容 Traffic serviceA Pod A1 Pod A2 RC/Deployment Scale 服务画像 监控中台 serviceB Pod B1 Pod B2 Pod B3 RC/Deployment Scale Horizontal Pod Autoscaler Horizontal Pod Autoscaler 获取metrics CPU Mem已经支持指标自定 义metrics(用户自定义指标) 获取metrics CPU Mem已经支持指标自定 义metrics(用户自定义指标)0 码力 | 22 页 | 7.42 MB | 9 月前3
OpenShift Container Platform 4.1 发行注记1.2.5. Cluster Monitoring 1.2.5.1. 基于定制的 metrics API 对 pod 进行横向的自动扩展 (技术预览) 1.2.5.2. 新的提示用户界面 1.2.5.3. Telemeter 1.2.5.4. 基于资源 metrics API 对 pod 进行横向的自动扩展 1.2.6. 开发者体验 1.2.6.1. 代码就绪容器 1.2.6.2. 全面支持 Cluster Monitoring 1.2.5.1. 基于定制的 基于定制的 metrics API 对 pod 进行横向的自 行横向的自动扩展 展 (技 技术预览) 此功能(目前为技术预览)允许您根据自定义的 metrics API 对 pod 进行横向的自动扩展(horizontal pod autoscaling,简称 HPA)。作为这种技术预览的一部分,现在可以部署一个 Prometheus 框架组件的健康状况和状态。 第 第 1 章 章 OPENSHIFT CONTAINER PLATFORM 4.1 发 发行注 行注记 记 7 1.2.5.4. 基于 基于资源 源 metrics API 对 pod 进行横向的自 行横向的自动扩展 展 默认情况下,OpenShift Cluster Monitoring 会通过 Kubernetes 资源 metrics API 提供 CPU 和内存利用 率的数据。因此,不再需要装单独的0 码力 | 22 页 | 287.47 KB | 1 年前3
36-云原生监控体系建设-秦晓辉Kubernetes Node组件监控 • Kubernetes控制面组件监控 • Kubernetes资源对象的监控 • Pod内的业务应用的监控 • 业务应用依赖的中间件的监控 云原生之后监控需求的 变化 云原生之后监控需求的变化 •相比物理机虚拟机时代,基础设施动态化,Pod销毁重建非常频繁 •原来使用资产视角管理监控对象的系统不再适用 •要么使用注册中心来自动发现,要么就是采集器和被监控对象通过sidecar模式捆绑一体 看要监控的组件 Kubernetes架构 l 服务端组件,控制面:API Server、Scheduler、 Controller-Manager、ETCD l 工作负载节点,最核心就是监控Pod容器和节点本 身,也要关注 kubelet 和 kube-proxy l 业务程序,即部署在容器中的业务程序的监控,这 个其实是最重要的 随着 Kubernetes 越来越流行,几乎所有云厂商都提供 Kubernetes Node 组 件的监控 Kubernetes Node - 容器负载监控 抓取方案 • Pod或者容器的负载情况,是一个需要关注的点,容器层面主要关注CPU和内存使用情况,Pod 层面主要 关注网络IO的情况,因为多个容器共享Pod的net namespace,Pod内多个容器的网络数据相同 • 容器的监控数据可以直接通过 docker 引擎的接口读取到,也可以直接读取 cAdvisor0 码力 | 32 页 | 3.27 MB | 6 月前3
第1930期:Kubernetes基础介绍点控制器及服务账号 和令牌控制器。负责维护集群的状态,比如故障检测、自动扩展、滚动更新等。 Scheduler调度器(kube-scheduler):负责资源调度(Pod调度)的进程,相当于“调度室”。按照预定的调度策略 将Pod调度到相应的机器上 etcd:集群的数据存储,他存储着集群中所有的资源对象。数据存储采用的是键值对存储。保存了整个集群的状态。 11 www.h3c.com Confidential Confidential 秘密 11 11 K8s基本概念和术语介绍(Node) 工作节点(Node/Worker): Node是集群的工作节点,运行具体的Pod,当某个Node宕机时,其工作负载会被Master自动转移到其他Node节点上。 默认情况下kubelet会向Master注册自己。一旦Node被纳入集群管理,kubelet进程就会定时向Master节点汇报自身的 情况,比如操作系统等信 Node节点上运行一组关键进程: kubelet:主节点代理,负责Pod对应的容器的创建启停等任务,同时与Master节点密切协作,实现集群管理的基本功 能。 kube-proxy:它负责节点的网络,在主机上维护网络规则并执行连接转发。它还负责对正在服务的pods进行负载平衡。 比如一个服务可能会运行多个副本(Pod),由他来控制具体由哪个Pod提供服务。为Service提供cluster内部的服务发 现和负载均衡。0 码力 | 49 页 | 4.11 MB | 1 年前3
KubeCon2020/腾讯会议大规模使用Kubernetes的技术实践MultiCluster-Route-Manager Application & Route Management VWA Controller (Vertical Workload Autoscaler) HPAPlus Controller HNA Controller Auto Scale CronHPA Controller CLB-Service/Ingress-Controller ordinal Service (Kube-proxy, CLB, etc.) 0 n-1 … StatefulSetPlus ordinal 2/2 Original Pod Updating Pod Updated Pod OK StatefulSetPlus StatefulSetPlus Batch Gray Release Key Features: Ø Manual/Auto CronHPA, VWA (Vertical Workload Autoscaler) Ø Keep share memory during Pod upgrade Ø Scaled Up with LGV (Last Good Version) Ø Per Pod Per PV Ø Per Workload Per PV Ø Pod Auto Migrate when Node Abnormal0 码力 | 19 页 | 10.94 MB | 1 年前3
OpenShift Container Platform 4.14 机器管理规格,用于描述为不同云平台提供的计算节点的 类型。例如,计算节点的机器类型可能会定义特定的机器类型和所需的元数据。 机器集 机器集 MachineSet 资源是计算机器组。计算机器集适用于计算机器,因为副本集是针对 pod。如果需要更多 计算机器或必须缩减规模,您可以更改 MachineSet 资源的 replicas 字段来满足您的计算需求。 OpenShift Container Platform 4.14 机器管理 API 来与 Machine API 集成。您可以使用以下方法使用集群自动扩展来管理集群: 为内核、节点、内存和 GPU 等资源设置集群范围的扩展限制 设置优先级,以便集群对 pod 和新节点进行优先排序,而在不太重要的 pod 时不会上线 设置扩展策略,以便您可以扩展节点,但不会缩减节点 机器健康 机器健康检查 检查 MachineHealthCheck 资源可检测机器何时处于不健康状态并将其删除,然后在支持的平台上生成新 nfd-worker pod,每个计算节点一个 nfd-worker pod。 3. 运行以下命令验证 Operator 是否已安装并正在运行: 输出示例 出示例 4. 浏览到控制台中的已安装的 Oerator,再选择 Create Node Feature Discovery。 5. 选择 Create 以构建 NFD 自定义资源。这会在 openshift-nfd 命名空间中创建 NFD pod,为硬件0 码力 | 277 页 | 4.37 MB | 1 年前3
共 341 条
- 1
- 2
- 3
- 4
- 5
- 6
- 35













