 通过Oracle 并行处理集成 Hadoop 数据脚本,然后由这个shell脚本提交一个Hadoop Map-Reduce 作业。该表函数与映射器 (mapper) 之 间使用 Oracle 高级队列特性进行通信。Hadoop mapper 将数据排入一个公共队列,而表函数则 从该队列中取出数据。由于该表函数能够并行运行,因此使用额外的逻辑来确保仅有一个服 务进程提交外部作业。 3 Oracle 白皮书 — 通过 Oracle 并行处理集成 并行处理集成 Hadoop 数据 图 2. 利用表函数进行并行处理 由于表函数可以并行运行,Hadoop 流作业也可以不同程度地并行运行,并且后者不受 Oracle 查询协调器的控制,这种情况下,队列能提供负载平衡。 4 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 利用表函数的示例 下面我们将以一个实际示例展示图 图 3. 启动 Mapper 作业并检索数据 第 1 步是确定由谁作为查询协调器。对此我们采用一种将具有相同键值的记录写入表的简单 机制。首个插入胜出,作为此进程的查询协调器 (QC)。请注意,QC 表函数调用同时也承担 着处理角色。 在第 2 步中,该表函数调用 (QC) 使用 dbms_scheduler(图 3 中的作业控制器)启动一个异步 作业,该作业接着在 Hadoop0 码力 | 21 页 | 1.03 MB | 1 年前3 通过Oracle 并行处理集成 Hadoop 数据脚本,然后由这个shell脚本提交一个Hadoop Map-Reduce 作业。该表函数与映射器 (mapper) 之 间使用 Oracle 高级队列特性进行通信。Hadoop mapper 将数据排入一个公共队列,而表函数则 从该队列中取出数据。由于该表函数能够并行运行,因此使用额外的逻辑来确保仅有一个服 务进程提交外部作业。 3 Oracle 白皮书 — 通过 Oracle 并行处理集成 并行处理集成 Hadoop 数据 图 2. 利用表函数进行并行处理 由于表函数可以并行运行,Hadoop 流作业也可以不同程度地并行运行,并且后者不受 Oracle 查询协调器的控制,这种情况下,队列能提供负载平衡。 4 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 利用表函数的示例 下面我们将以一个实际示例展示图 图 3. 启动 Mapper 作业并检索数据 第 1 步是确定由谁作为查询协调器。对此我们采用一种将具有相同键值的记录写入表的简单 机制。首个插入胜出,作为此进程的查询协调器 (QC)。请注意,QC 表函数调用同时也承担 着处理角色。 在第 2 步中,该表函数调用 (QC) 使用 dbms_scheduler(图 3 中的作业控制器)启动一个异步 作业,该作业接着在 Hadoop0 码力 | 21 页 | 1.03 MB | 1 年前3
 VMware Data Recovery 管理员指南安装客户端插件 9 安装备份设备 10 向备份设备中添加硬盘 10 3 配置 VMware Data Recovery 13 启动备份设备 13 配置备份设备 14 使用入门向导 14 创建备份作业 15 还原虚拟机 16 VMware Data Recovery 故障排除 18 索引 21 VMware, Inc. 3 VMware Data Recovery 4 VMware 除重复以删除冗余数据。 Data Recovery 建立在用于数据保护的 VMware vStorage API 基础上,并与 VMware vCenter Server 集成,使 您可以实现备份作业的集中调度。通过与 vCenter Server 集成,还可以备份虚拟机,即使使用 VMware VMotion™ 或 VMware Distributed Resource Scheduler (DRS) 目标位置。这样,进行相同作业时,就不需要备份虚拟机。 VMware, Inc. 7 Data Recovery 使用 vSphere 许可基础架构以确保受 Data Recovery 保护的所有虚拟机都具有适当的许可。有效的 vSphere 许可包括基础增强版、高级版、企业版或企业增强版许可证。 每个 Data Recovery 备份设备可保护 100 个虚拟机。可以创建一个备份作业,并将其所保护虚拟机的个数配置0 码力 | 22 页 | 663.62 KB | 1 年前3 VMware Data Recovery 管理员指南安装客户端插件 9 安装备份设备 10 向备份设备中添加硬盘 10 3 配置 VMware Data Recovery 13 启动备份设备 13 配置备份设备 14 使用入门向导 14 创建备份作业 15 还原虚拟机 16 VMware Data Recovery 故障排除 18 索引 21 VMware, Inc. 3 VMware Data Recovery 4 VMware 除重复以删除冗余数据。 Data Recovery 建立在用于数据保护的 VMware vStorage API 基础上,并与 VMware vCenter Server 集成,使 您可以实现备份作业的集中调度。通过与 vCenter Server 集成,还可以备份虚拟机,即使使用 VMware VMotion™ 或 VMware Distributed Resource Scheduler (DRS) 目标位置。这样,进行相同作业时,就不需要备份虚拟机。 VMware, Inc. 7 Data Recovery 使用 vSphere 许可基础架构以确保受 Data Recovery 保护的所有虚拟机都具有适当的许可。有效的 vSphere 许可包括基础增强版、高级版、企业版或企业增强版许可证。 每个 Data Recovery 备份设备可保护 100 个虚拟机。可以创建一个备份作业,并将其所保护虚拟机的个数配置0 码力 | 22 页 | 663.62 KB | 1 年前3
 Hadoop 迁移到阿里云MaxCompute 技术方案....................................... 19 Alibaba Cloud MaxCompute 解决方案 3 4.2.4 数据集成及工作流作业迁移................................................................................................ 19 ................................................................................... 28 6.3.3 数据、作业和 Pipeline 迁移评估 ................................................................................... B:使用 Dataworks 服务迁移 Meta 和数据 ............................................................ 37 6.5 作业迁移.................................................................................................0 码力 | 59 页 | 4.33 MB | 1 年前3 Hadoop 迁移到阿里云MaxCompute 技术方案....................................... 19 Alibaba Cloud MaxCompute 解决方案 3 4.2.4 数据集成及工作流作业迁移................................................................................................ 19 ................................................................................... 28 6.3.3 数据、作业和 Pipeline 迁移评估 ................................................................................... B:使用 Dataworks 服务迁移 Meta 和数据 ............................................................ 37 6.5 作业迁移.................................................................................................0 码力 | 59 页 | 4.33 MB | 1 年前3
 OpenShift Container Platform 4.9 节点the property of their respective owners. 摘要 摘要 本文提供有关在集群中配置和管理节点、Pod 和容器的说明。它还提供有关配置 Pod 调度和放置、 使用作业(job)和 DaemonSet 来自动执行操作,以及确保集群保持高效性的其他任务信息。 . . . . . . . . . . . . . . . . . . . . . . . . . . . 第 第 4 章 章 使用作 使用作业 业和 和 DAEMONSET 4.1. 使用 DAEMONSET 在节点上自动运行后台任务 4.1.1. 通过默认调度程序调度 4.1.2. 创建 daemonset 4.2. 使用任务在 POD 中运行任务 4.2.1. 了解作业和 cron 作业 4.2.1.1. 了解如何创建作业 4.2.1.2. 了解如何为作业设置最长持续时间 4.2.1.3 3. 了解如何为 pod 失败设置作业避退策略 4.2.1.4. 了解如何配置 Cron Job 以移除工件 4.2.1.5. 已知限制 4.2.2. 创建作业 4.2.3. 创建 cron job 第 第 5 章 章 操作 操作节 节点 点 5.1. 查看和列出 OPENSHIFT CONTAINER PLATFORM 集群中的节点 5.1.1. 关于列出集群中的所有节点 5.1.2.0 码力 | 374 页 | 3.80 MB | 1 年前3 OpenShift Container Platform 4.9 节点the property of their respective owners. 摘要 摘要 本文提供有关在集群中配置和管理节点、Pod 和容器的说明。它还提供有关配置 Pod 调度和放置、 使用作业(job)和 DaemonSet 来自动执行操作,以及确保集群保持高效性的其他任务信息。 . . . . . . . . . . . . . . . . . . . . . . . . . . . 第 第 4 章 章 使用作 使用作业 业和 和 DAEMONSET 4.1. 使用 DAEMONSET 在节点上自动运行后台任务 4.1.1. 通过默认调度程序调度 4.1.2. 创建 daemonset 4.2. 使用任务在 POD 中运行任务 4.2.1. 了解作业和 cron 作业 4.2.1.1. 了解如何创建作业 4.2.1.2. 了解如何为作业设置最长持续时间 4.2.1.3 3. 了解如何为 pod 失败设置作业避退策略 4.2.1.4. 了解如何配置 Cron Job 以移除工件 4.2.1.5. 已知限制 4.2.2. 创建作业 4.2.3. 创建 cron job 第 第 5 章 章 操作 操作节 节点 点 5.1. 查看和列出 OPENSHIFT CONTAINER PLATFORM 集群中的节点 5.1.1. 关于列出集群中的所有节点 5.1.2.0 码力 | 374 页 | 3.80 MB | 1 年前3
 OpenShift Container Platform 4.6 节点the property of their respective owners. 摘要 摘要 本文提供有关在集群中配置和管理节点、Pod 和容器的说明。它还提供有关配置 Pod 调度和放置、 使用作业(job)和 DaemonSet 来自动执行操作,以及确保集群保持高效性的其他任务信息。 . . . . . . . . . . . . . . . . . . . . . . . . . . . 第 第 4 章 章 使用作 使用作业 业和 和 DAEMONSET 4.1. 使用 DAEMONSET 在节点上自动运行后台任务 4.1.1. 通过默认调度程序调度 4.1.2. 创建 daemonset 4.2. 使用任务在 POD 中运行任务 4.2.1. 了解作业和 cron 作业 4.2.1.1. 了解如何创建作业 4.2.1.2. 了解如何为作业设置最长持续时间 4.2.1.3 3. 了解如何为 pod 失败设置作业避退策略 4.2.1.4. 了解如何配置 Cron Job 以移除工件 4.2.1.5. 已知限制 4.2.2. 创建作业 4.2.3. 创建 cron job 第 第 5 章 章 操作 操作节 节点 点 5.1. 查看和列出 OPENSHIFT CONTAINER PLATFORM 集群中的节点 5.1.1. 关于列出集群中的所有节点 5.1.2. 列出集群中某一节点上的0 码力 | 404 页 | 3.60 MB | 1 年前3 OpenShift Container Platform 4.6 节点the property of their respective owners. 摘要 摘要 本文提供有关在集群中配置和管理节点、Pod 和容器的说明。它还提供有关配置 Pod 调度和放置、 使用作业(job)和 DaemonSet 来自动执行操作,以及确保集群保持高效性的其他任务信息。 . . . . . . . . . . . . . . . . . . . . . . . . . . . 第 第 4 章 章 使用作 使用作业 业和 和 DAEMONSET 4.1. 使用 DAEMONSET 在节点上自动运行后台任务 4.1.1. 通过默认调度程序调度 4.1.2. 创建 daemonset 4.2. 使用任务在 POD 中运行任务 4.2.1. 了解作业和 cron 作业 4.2.1.1. 了解如何创建作业 4.2.1.2. 了解如何为作业设置最长持续时间 4.2.1.3 3. 了解如何为 pod 失败设置作业避退策略 4.2.1.4. 了解如何配置 Cron Job 以移除工件 4.2.1.5. 已知限制 4.2.2. 创建作业 4.2.3. 创建 cron job 第 第 5 章 章 操作 操作节 节点 点 5.1. 查看和列出 OPENSHIFT CONTAINER PLATFORM 集群中的节点 5.1.1. 关于列出集群中的所有节点 5.1.2. 列出集群中某一节点上的0 码力 | 404 页 | 3.60 MB | 1 年前3
 Volcano加速金融行业大数据分析平台云原生化改造的应用实践社区核心贡献者 大数据平台云原生面临的挑战 传统大数据平台云原生化改造成为必然趋势 大数据分析、人工智能等批量计算场景深度应用于金融场景 作业管理缺失 • Pod级别调度,无法感知上层应用 • 缺少作业概念、缺少完善的生命周期的管理 • 缺少任务依赖、作业依赖支持 调度策略局限 • 不支持Gang-scheduling、Fair-share scheduling • 不支持多场景的Resource reservation,backfill • 不支持CPU/IO topology based scheduling 领域框架支持不足 • 1:1的operator部署运维复杂 • 不同框架对作业管理、并行计算等要求不通 • 计算密集,资源波动大,需要高级调度能力 资源规划复用、异构计算支持不足 • 缺少队列概念 • 不支持集群资源的动态规划以及资源复用 • 对异构资源支持不足 传统服务 50+ 企业生产落地 关键特性: 1. 统一的作业管理 提供完善作业生命周期管理,统一支持几乎所有主流的计算框架,如 Pytorch, MPI, Horovod, Tensorflow、Spark等。 2. 丰富的高阶调度策略 公平调度、任务拓扑调度、基于SLA调度、作业抢占、回填、弹性调度、 混部等。 3. 细粒度的资源管理 提供作业队列,队列资源预留、队列容量管理、多租户的动态资源共享。0 码力 | 18 页 | 1.82 MB | 1 年前3 Volcano加速金融行业大数据分析平台云原生化改造的应用实践社区核心贡献者 大数据平台云原生面临的挑战 传统大数据平台云原生化改造成为必然趋势 大数据分析、人工智能等批量计算场景深度应用于金融场景 作业管理缺失 • Pod级别调度,无法感知上层应用 • 缺少作业概念、缺少完善的生命周期的管理 • 缺少任务依赖、作业依赖支持 调度策略局限 • 不支持Gang-scheduling、Fair-share scheduling • 不支持多场景的Resource reservation,backfill • 不支持CPU/IO topology based scheduling 领域框架支持不足 • 1:1的operator部署运维复杂 • 不同框架对作业管理、并行计算等要求不通 • 计算密集,资源波动大,需要高级调度能力 资源规划复用、异构计算支持不足 • 缺少队列概念 • 不支持集群资源的动态规划以及资源复用 • 对异构资源支持不足 传统服务 50+ 企业生产落地 关键特性: 1. 统一的作业管理 提供完善作业生命周期管理,统一支持几乎所有主流的计算框架,如 Pytorch, MPI, Horovod, Tensorflow、Spark等。 2. 丰富的高阶调度策略 公平调度、任务拓扑调度、基于SLA调度、作业抢占、回填、弹性调度、 混部等。 3. 细粒度的资源管理 提供作业队列,队列资源预留、队列容量管理、多租户的动态资源共享。0 码力 | 18 页 | 1.82 MB | 1 年前3
 TensorFlow on Yarn:深度学习遇上大数据训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死� • 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 • 集群资源的管理(目前支持CPU、内存,需要扩展GPU 资源管理)� • 作业的统⼀管理、状态跟踪� • 资源组(Schedule Pool)的划分� • 作业进程的资源隔离� Yarn能解决什么问题:� TensorFlow 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标:� TensorFlow on Yarn设计 • 支持GPU亲和性调度(提⾼通信效率)� • Web的⽅式查看作业的运⾏状况和作业日志� • 在线查看Tensorboard� • HistoryServer支持查看结束作业的日志和状态信息� • 控 控制已有的TensorFlow作业的迁移成本(最多改三⾏ 代码)� 扩展目标:� TensorFlow on Yarn设计 tensorflow-submit \� --app-name “tfdemo” \#作业名� --files tfTestDemo.py,dataDeal.py \ #依赖的本地⽂件� --tfcmd “python tfTestDemo.py0 码力 | 32 页 | 4.06 MB | 1 年前3 TensorFlow on Yarn:深度学习遇上大数据训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死� • 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 • 集群资源的管理(目前支持CPU、内存,需要扩展GPU 资源管理)� • 作业的统⼀管理、状态跟踪� • 资源组(Schedule Pool)的划分� • 作业进程的资源隔离� Yarn能解决什么问题:� TensorFlow 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标:� TensorFlow on Yarn设计 • 支持GPU亲和性调度(提⾼通信效率)� • Web的⽅式查看作业的运⾏状况和作业日志� • 在线查看Tensorboard� • HistoryServer支持查看结束作业的日志和状态信息� • 控 控制已有的TensorFlow作业的迁移成本(最多改三⾏ 代码)� 扩展目标:� TensorFlow on Yarn设计 tensorflow-submit \� --app-name “tfdemo” \#作业名� --files tfTestDemo.py,dataDeal.py \ #依赖的本地⽂件� --tfcmd “python tfTestDemo.py0 码力 | 32 页 | 4.06 MB | 1 年前3
 大数据集成与Hadoop - IBM据可扩展性,这意味着在设计之初,并未考虑利用非共享大规模 并行架构。它们依靠共享的内存多线程,而非软件数据流。 此外,有些供应商不支持将大数据集分散在多个节点间,无法对 独立数据分区并行运行单一数据集成作业,也无法实现设计一 次作业,无需重新设计和重新调整作业即可在任何硬件配置中 非共享架构 从头开始创建软件,以便 利用非共享的大规模并行 架构,方法是将数据集分 散到多个计算节点,执行 单一应用程序(对每个数 据分区执行相同的应用程 将构建和优化多位用户运 行的并行应用程序的复杂 问题隐藏起来。 利用数据分区实现线性 数据可扩展性 大数据集分散在多个独立 节点间,单个作业对所有 分区数据执行相同的应用 程序逻辑。 形成设计隔离的环境 设计一个数据处理作业, 并且无需重新设计和重新 调整作业,即可在任何硬 件配置中使用它。 使用它。这些功能对于通过提升效率来降低成本至关重要。没 有它们,该平台将无法处理大量的大数据。 InfoSphere 频繁的调整。另外,手动编码不支持自动收集对数据治理至关 重要的设计和操作元数据。 3. 不要为RDBMS、Hadoop和ETL网格创建单独的集成开 发环境:这种做法没有任何实际意义,而且支持费用非常昂 贵。您应该能够构建一次作业,然后即可在三个环境中的任意 一个环境内运行它。 最适合Hadoop的流程 Hadoop 平台由以下两个主要组件构成:分布式容错文件系统 (称为Hadoop Distributed File0 码力 | 16 页 | 1.23 MB | 1 年前3 大数据集成与Hadoop - IBM据可扩展性,这意味着在设计之初,并未考虑利用非共享大规模 并行架构。它们依靠共享的内存多线程,而非软件数据流。 此外,有些供应商不支持将大数据集分散在多个节点间,无法对 独立数据分区并行运行单一数据集成作业,也无法实现设计一 次作业,无需重新设计和重新调整作业即可在任何硬件配置中 非共享架构 从头开始创建软件,以便 利用非共享的大规模并行 架构,方法是将数据集分 散到多个计算节点,执行 单一应用程序(对每个数 据分区执行相同的应用程 将构建和优化多位用户运 行的并行应用程序的复杂 问题隐藏起来。 利用数据分区实现线性 数据可扩展性 大数据集分散在多个独立 节点间,单个作业对所有 分区数据执行相同的应用 程序逻辑。 形成设计隔离的环境 设计一个数据处理作业, 并且无需重新设计和重新 调整作业,即可在任何硬 件配置中使用它。 使用它。这些功能对于通过提升效率来降低成本至关重要。没 有它们,该平台将无法处理大量的大数据。 InfoSphere 频繁的调整。另外,手动编码不支持自动收集对数据治理至关 重要的设计和操作元数据。 3. 不要为RDBMS、Hadoop和ETL网格创建单独的集成开 发环境:这种做法没有任何实际意义,而且支持费用非常昂 贵。您应该能够构建一次作业,然后即可在三个环境中的任意 一个环境内运行它。 最适合Hadoop的流程 Hadoop 平台由以下两个主要组件构成:分布式容错文件系统 (称为Hadoop Distributed File0 码力 | 16 页 | 1.23 MB | 1 年前3
 Harbor - 企业级Docker 私有仓库max_job_workers:(默认值为 :(默认值为3)作业服务中的复制工作人员的最大数量。对于每个映像复制作业, )作业服务中的复制工作人员的最大数量。对于每个映像复制作业, 工作人员将存储库的所有标签同步到远程目标。增加此数字允许系统中更多的并发复制作业。但是,由于每个工 工作人员将存储库的所有标签同步到远程目标。增加此数字允许系统中更多的并发复制作业。但是,由于每个工 作人员都会消耗一定数量的网络0 码力 | 4 页 | 171.12 KB | 1 年前3 Harbor - 企业级Docker 私有仓库max_job_workers:(默认值为 :(默认值为3)作业服务中的复制工作人员的最大数量。对于每个映像复制作业, )作业服务中的复制工作人员的最大数量。对于每个映像复制作业, 工作人员将存储库的所有标签同步到远程目标。增加此数字允许系统中更多的并发复制作业。但是,由于每个工 工作人员将存储库的所有标签同步到远程目标。增加此数字允许系统中更多的并发复制作业。但是,由于每个工 作人员都会消耗一定数量的网络0 码力 | 4 页 | 171.12 KB | 1 年前3
 OpenShift Container Platform 4.13 CI/CDPlatform Pipelines 中带有等效且改进的功能。 OpenShift Container Platform 上的 Jenkins 镜像被完全支持,用户可以按照 Jenkins 用户 文档在作业中定义 jenkinsfile,或者将其存储在 Source Control Management 系统中。 采用 Pipeline 构建策略时,开发人员可以定义 Jenkins 管道,供 Jenkins Platform Pipelines 中带有等效且改进的功能。 OpenShift Container Platform 上的 Jenkins 镜像被完全支持,用户可以按照 Jenkins 用户 文档在作业中定义 jenkinsfile,或者将其存储在 Source Control Management 系统中。 采用 Pipeline 构建策略时,开发人员可以定义 Jenkins 管道,供 Jenkins Platform Pipelines 中带有等效且改进的功能。 OpenShift Container Platform 上的 Jenkins 镜像被完全支持,用户可以按照 Jenkins 用户 文档在作业中定义 jenkinsfile,或者将其存储在 Source Control Management 系统中。 通过管道(pipeline),您可以控制在 OpenShift Container Platform0 码力 | 129 页 | 1.37 MB | 1 年前3 OpenShift Container Platform 4.13 CI/CDPlatform Pipelines 中带有等效且改进的功能。 OpenShift Container Platform 上的 Jenkins 镜像被完全支持,用户可以按照 Jenkins 用户 文档在作业中定义 jenkinsfile,或者将其存储在 Source Control Management 系统中。 采用 Pipeline 构建策略时,开发人员可以定义 Jenkins 管道,供 Jenkins Platform Pipelines 中带有等效且改进的功能。 OpenShift Container Platform 上的 Jenkins 镜像被完全支持,用户可以按照 Jenkins 用户 文档在作业中定义 jenkinsfile,或者将其存储在 Source Control Management 系统中。 采用 Pipeline 构建策略时,开发人员可以定义 Jenkins 管道,供 Jenkins Platform Pipelines 中带有等效且改进的功能。 OpenShift Container Platform 上的 Jenkins 镜像被完全支持,用户可以按照 Jenkins 用户 文档在作业中定义 jenkinsfile,或者将其存储在 Source Control Management 系统中。 通过管道(pipeline),您可以控制在 OpenShift Container Platform0 码力 | 129 页 | 1.37 MB | 1 年前3
共 91 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10














