 Volcano加速金融行业大数据分析平台云原生化改造的应用实践社区核心贡献者 大数据平台云原生面临的挑战 传统大数据平台云原生化改造成为必然趋势 大数据分析、人工智能等批量计算场景深度应用于金融场景 作业管理缺失 • Pod级别调度,无法感知上层应用 • 缺少作业概念、缺少完善的生命周期的管理 • 缺少任务依赖、作业依赖支持 调度策略局限 • 不支持Gang-scheduling、Fair-share scheduling • 不支持多场景的Resource reservation,backfill • 不支持CPU/IO topology based scheduling 领域框架支持不足 • 1:1的operator部署运维复杂 • 不同框架对作业管理、并行计算等要求不通 • 计算密集,资源波动大,需要高级调度能力 资源规划复用、异构计算支持不足 • 缺少队列概念 • 不支持集群资源的动态规划以及资源复用 • 对异构资源支持不足 传统服务 50+ 企业生产落地 关键特性: 1. 统一的作业管理 提供完善作业生命周期管理,统一支持几乎所有主流的计算框架,如 Pytorch, MPI, Horovod, Tensorflow、Spark等。 2. 丰富的高阶调度策略 公平调度、任务拓扑调度、基于SLA调度、作业抢占、回填、弹性调度、 混部等。 3. 细粒度的资源管理 提供作业队列,队列资源预留、队列容量管理、多租户的动态资源共享。0 码力 | 18 页 | 1.82 MB | 1 年前3 Volcano加速金融行业大数据分析平台云原生化改造的应用实践社区核心贡献者 大数据平台云原生面临的挑战 传统大数据平台云原生化改造成为必然趋势 大数据分析、人工智能等批量计算场景深度应用于金融场景 作业管理缺失 • Pod级别调度,无法感知上层应用 • 缺少作业概念、缺少完善的生命周期的管理 • 缺少任务依赖、作业依赖支持 调度策略局限 • 不支持Gang-scheduling、Fair-share scheduling • 不支持多场景的Resource reservation,backfill • 不支持CPU/IO topology based scheduling 领域框架支持不足 • 1:1的operator部署运维复杂 • 不同框架对作业管理、并行计算等要求不通 • 计算密集,资源波动大,需要高级调度能力 资源规划复用、异构计算支持不足 • 缺少队列概念 • 不支持集群资源的动态规划以及资源复用 • 对异构资源支持不足 传统服务 50+ 企业生产落地 关键特性: 1. 统一的作业管理 提供完善作业生命周期管理,统一支持几乎所有主流的计算框架,如 Pytorch, MPI, Horovod, Tensorflow、Spark等。 2. 丰富的高阶调度策略 公平调度、任务拓扑调度、基于SLA调度、作业抢占、回填、弹性调度、 混部等。 3. 细粒度的资源管理 提供作业队列,队列资源预留、队列容量管理、多租户的动态资源共享。0 码力 | 18 页 | 1.82 MB | 1 年前3
 24-云原生中间件之道-高磊依赖软件安装、服务部署等一系列步骤,该过程通常比 较慢,对于集群负载的缓解,不够及时。 • 在离线分离部署及粗粒度调度无法提高资源的利用率:在传统Hadoop架构下,离线作业和在线作业往往分属不同的集 群,然而在线业务、流式作业具有明显的波峰波谷特性,在波谷时段,会有大量的资源处于闲置状态,造成资源的浪 费和成本的提升。在离线混部集群,通过动态调度削峰填谷,当在线集群的使用率处于波谷时段,将离线任务调度到 方负责调用该API来创建和销毁资源,资源在Kubernetes上创建完成之后,该资源的Yarn NodeManager组件自动向 Yarn ResourceManager注册,以Kubernetes Pod的形式提供算力,后续执行作业时涉及到的资源调度,依然由Yarn负 责。 • 在镜像和发布周期方面,容器镜像技术精简了应用的运行环境,镜像只需提供应用必须的依赖环境,使其存储空 间得到了极大的减少,上传和下载镜像的时间变的更短,0 码力 | 22 页 | 4.39 MB | 6 月前3 24-云原生中间件之道-高磊依赖软件安装、服务部署等一系列步骤,该过程通常比 较慢,对于集群负载的缓解,不够及时。 • 在离线分离部署及粗粒度调度无法提高资源的利用率:在传统Hadoop架构下,离线作业和在线作业往往分属不同的集 群,然而在线业务、流式作业具有明显的波峰波谷特性,在波谷时段,会有大量的资源处于闲置状态,造成资源的浪 费和成本的提升。在离线混部集群,通过动态调度削峰填谷,当在线集群的使用率处于波谷时段,将离线任务调度到 方负责调用该API来创建和销毁资源,资源在Kubernetes上创建完成之后,该资源的Yarn NodeManager组件自动向 Yarn ResourceManager注册,以Kubernetes Pod的形式提供算力,后续执行作业时涉及到的资源调度,依然由Yarn负 责。 • 在镜像和发布周期方面,容器镜像技术精简了应用的运行环境,镜像只需提供应用必须的依赖环境,使其存储空 间得到了极大的减少,上传和下载镜像的时间变的更短,0 码力 | 22 页 | 4.39 MB | 6 月前3
共 2 条
- 1













