Volcano加速金融行业大数据分析平台云原生化改造的应用实践调度策略局限 • 不支持Gang-scheduling、Fair-share scheduling • 不支持多场景的Resource reservation,backfill • 不支持CPU/IO topology based scheduling 领域框架支持不足 • 1:1的operator部署运维复杂 • 不同框架对作业管理、并行计算等要求不通 • 计算密集,资源波动大,需要高级调度能力 提供作业队列,队列资源预留、队列容量管理、多租户的动态资源共享。 4. 性能优化和异构资源管理 调度性能优化,并结合 Kubernetes 提供扩展性、吞吐、网络、运行时的 多项优化,异构硬件支持x86, Arm, GPU, 昇腾,昆仑等。 Volcano Global Kubernetes Volcano-controller Volcano-scheduler Kubernetes Volcano-controller weight=2 Queuer2 with weight=1 Submit job to Queue 2 Queuer2 with weight=1 CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU Queue2 is empty. Q1 can borrow resources from Queue2. Queue2 has workload0 码力 | 18 页 | 1.82 MB | 1 年前3
中国移动磐舟DevSecOps平台云原生安全实践云原生虚拟化开发集群 利用虚拟化技术实现开发集群,分钟级交 付,突破有限资源开发集群供给。 原生使用模式,开发组件一键部署 云原生CI持续集成 使用Dockerfile进行云原生方式的CI构建, 拓展形成ARM、x86双架构流水线,底层 安全漏洞统一修复 全面云原生安全 支持代码安全扫描、镜像安全扫描、开源 协议扫描、依赖漏洞扫描。并可给出修复 建议。支持开源风险持续治理。 108 48 78 平台管理的业务或应用代码行数 215.87万 平台进行代码质量扫描、代码安全扫描、镜像安全扫描、整体安全扫描量 183.81万 提交代码、构建、部署总次数,其中x86构建16.42万次,arm构建1.59万次 企业级超大规模实践—推动中移数字化转型 中国移动集团范围内推广使用磐舟,截止2022年10月30日,平台已入驻项目356个。其中IT公司208个,涉及 14个部门,省公司(含0 码力 | 22 页 | 5.47 MB | 1 年前3
36-云原生监控体系建设-秦晓辉后面还要涉及到升级维护的问题。既然负载节点更重要, 我们讲解监控就从工作负载节点开始。 Kubernetes 所在宿主 的监控 Kubernetes所在宿主的监控 宿主的监控,比较常规和简单,无非就是 CPU、Mem、Disk、DiskIO、Net、Netstat、Processes、 System、Conntrack、Vmstat 等等。原理就是读取 OS 的数据(通过 /proc 和 syscall Categraf Kubernetes Node 组 件的监控 Kubernetes Node - 容器负载监控 抓取方案 • Pod或者容器的负载情况,是一个需要关注的点,容器层面主要关注CPU和内存使用情况,Pod 层面主要 关注网络IO的情况,因为多个容器共享Pod的net namespace,Pod内多个容器的网络数据相同 • 容器的监控数据可以直接通过 docker 引擎的接口读取到,也可以直接读取 关键指标 CPU使用率,分子是每秒内容器用了多少CPU 时间,分母是每秒内被限制使用多少CPU时间 sum( irate(container_cpu_usage_seconds_total[3m]) ) by (pod,id,namespace,container,ident,image) / sum( container_spec_cpu_quota/container_spec_cpu_period0 码力 | 32 页 | 3.27 MB | 6 月前3
基于Consul的多Beats接入管控与多ES搜索编排watch到Consul对应的agent id路径,实时感 知配置变化,并对启动的进程列表做重启清理 等工作 管理多Beats/logstash Beats等以agent子进程启动其管理这些进程的 cpu/内存等资源 Agent Consul Master 获取master列表 向master发起Agent注册逻辑 返回agent id 增删改策略 获取策略列表 启动管控收集进程 watch配置变化 多beats同时管控 11 当前收益 快 稳 准 • 快速接入(5min) • 配置UI化标准化 • 配置变更实时感知 • 部署全自动化 • 多Beats支持 • Beats运行时cpu/mem可控 • Agent监控视图 • 离线/容量/延时监控 • 分布式集群管理 • 异常快速定位 • 关联公司CMDB • 资源权限管理 • 配置灰度控制发布 • 配置一致性检测 Agent运行时监控 日志延时分析 Beats cpu/mem管控 ES/kafka容量管理 日志覆盖率分析 13 案例:高并发写入场景下Beats与ES性能优化 日志上报是 否有延时? Filebeat资 源受限? ES写入性 能不足? beats性能 调优? ES写入参 数调整 升级ES配 置 发现延时 Cpu/mem充足 Cpu/mcem充足 提升beats资 源配额0 码力 | 23 页 | 6.65 MB | 1 年前3
构建统一的云原生应用 可观测性数据平台growing complexity. 数据打通并不简单 ② 应用、系统、网络的Metrics之间 例如:某个Service的Pod的QPS、IOPS、BPS分别是多少? 例如:Pod所在的KVM宿主机的CPU、内存指标? ② 看云网更清晰 Simplify the growing complexity. 数据打通并不简单 ③ Metrics与「非Aggregatable」的Log 例如:QPS降低与进程、服务器的日志有关联吗? 存储 ③ 查询 ③ 查询 看云网更清晰 Simplify the growing complexity. MultistageCodec的性能提升:~10X 标签存储类型 机制 标签长度 CPU 内存 磁盘开销 使用Int Tag 直接存索引 16B 1 1 1 使用LowCard(String) Tag 索引和标签分离 16B 10 1 1.5 (Card.=5000) 5 (Card 监控600+个K8s Node(~8000个POD),共600*16vCPU • 每秒写入1M Row(50MB字节),每行100~150 Column • Server端共6*16vCPU,总计CPU消耗<150%,总计Load<60 1. 可观测性数据平台的挑战 2. 解决数据孤岛:AutoTagging 3. 降低资源开销:MultistageCodec 4. 统一数据平台的落地思路及案例0 码力 | 35 页 | 6.75 MB | 1 年前3
24-云原生中间件之道-高磊核心目标是保证系统和应用的完整性,从而保证系统按照设计预期所规 定的安全状态。尤其是像边缘计算BOX这种安全防护,根据唯一Hash值验 证,可以实现极为简单的边云接入操作,运行态并不会影响性能。 可信根一般是一个硬件,比如CPU或者TPM,将从 它开始构建系统所有组件启动的可信启动链,比 如UEFI、loader、OS、应用等,可以确保在被入侵 修改时的阻断行为,另外可以将可信启动链的 Hash值上传云端管理,可以做到中心管控验证的 应 高负荷的场景。另外也需要进一步将计算和内存分离出 来,使得计算层彻底变为无状态,可以做到灵活的拓展 能力和故障恢复能力。这样在计算层也实现了Serverless 模式。 • 通过RDMA,绕过CPU,直接和远端内存通信,在计算与 存储分离、计算与内存分离架构上,提升网络利用率和 性能,也能得到传统数据库网络和性能上一样的体验。 • 底层Data Chunk,采用去中心存储,单体失败不影响数 据 间得到了极大的减少,上传和下载镜像的时间变的更短,快速启动和销毁变的很容易,总体极大的缩短了应用的 发布周期。 • 在资源利用率方面,借助云原生架构的技术能力,多方位提升系统的资源利用率,如细粒度调度(将CPU和内存 这两个核心资源划分的更细,从而更充分的分配系统资源)、动态调度(基于节点真实负载情况,而非静态划分 的资源,将任务调度到已分配了资源但是未实际使用的节点上,从而更充分的提高系统算力),在离线混部(根0 码力 | 22 页 | 4.39 MB | 6 月前3
2.2.7 云原生技术在2B交付中的实践Memory int `json:"memory"` CPU int `json:"cpu"` GPU int `json:"gpu"`0 码力 | 31 页 | 6.38 MB | 1 年前3
25-云原生应用可观测性实践-向阳关联 应用链路(Tracing) 应用日志(Logging) 应用链路 TraceID 私 有 云 物 理 公 有 云 企业混合云 控制器 10W采集器 20+云平台 采集器 1% CPU 0.01% 带宽开销 ︹ 零 侵 入 ︺ 流 量 采 集 云平台API 容器编排API TKE ACK 知识图谱 变更事件 资源信息 全 景 图 基于应用代码和日志的可观测性 关联 应用链路(Tracing) 应用日志(Logging) 应用链路 TraceID 私 有 云 物 理 公 有 云 企业混合云 控制器 10W采集器 20+云平台 采集器 1% CPU 0.01% 带宽开销 ︹ 零 侵 入 ︺ 流 量 采 集 云平台API 容器编排API TKE ACK 知识图谱 变更事件 资源信息 全 景 图 基于应用代码和日志的可观测性0 码力 | 39 页 | 8.44 MB | 6 月前3
云原生安全威胁分析与能力建设白皮书(来源:中国联通研究院)程序漏洞导致的容器逃逸:参与到容器生态中的服务端、客户端程序自身存 在的漏洞都可能导致容器逃逸的风险,例如 CVE-2019-5736 漏洞。 2.3.3 拒绝服务攻击 由于容器与宿主机共享 CPU、内存、磁盘空间等硬件资源,且 Docker 本 身对容器使用的资源并没有默认限制,如果单个容器耗尽宿主机的计算资源或存 储资源(例如进程数量、存储空间等),就可能导致宿主机或其他容器的拒绝服 见容器安全内容。k8s 提权的方式和场景有很多,比如 RBAC 提权,还有一些 用于 k8s 提权的 Nday,比如 CVE-2018-1002105、CVE-2020-8559 等。 拒绝服务:主要从 CPU、内存、存储、网络等方面进行资源耗尽型攻击。 云原生安全威胁分析与能力建设白皮书 29 2.4.4 集群环境下的横向攻击 可能存在的横向攻击内容包括攻击 API Server 以及攻击其他服务,如攻击 Protection Platform 云原生应用程序保护平台 CNCF Cloud Native Computing Foundation 云原生计算基金会 COW Copy-on-Write 写时拷贝 CPU Central Processing Unit 中央处理器 CSA Cloud Security Alliance 云安全联盟 CSPM Cloud Security Platform Management0 码力 | 72 页 | 2.44 MB | 1 年前3
14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧 latency / fault / … ● TimeChaos: clock skew ● KernelChaos: kernel fault injection ● StressChaos: burn cpu and memory ● DNSChaos …. ● Controller Manager ● Chaos Daemon ● Chaos Dashboard ● Grafana datasource0 码力 | 25 页 | 3.33 MB | 6 月前3
共 13 条
- 1
- 2













