 Hadoop 迁移到阿里云MaxCompute 技术方案利用迁移工具,可以对 Hive 作业进行兼容性分析,识别出需要修改的任务并提供针对性的 兼容性修改建议。对于用户自定义逻辑的分析任务,如 UDF、MR/Spark 作业等,我们将给出 一般性的改造建议供用户参考。 4.2.4 数据集成及工作流作业迁移 迁移工具支持对主流数据集成工具 Sqoop 进行作业的迁移转换,并自动创建 Dataworks 数据集成作业;迁移工具支持主流 Pipeline 工具,如 包可直接运行,参照《MaxCompute Spark 开发指南》第二节准备开发环境和修改配置。注意,对于 spark 或 hadoop 的依赖必须设成 provided。 Alibaba Cloud MaxCompute 解决方案 44 2. 【作业需要访问 MaxCompute 表】参考《MaxCompute Spark 开发指南》第三节编译 datasource 并安装到本地 maven maven 仓库,在 pom 中添加依赖后重新打包即可。 3. 【作业需要访问 OSS】参考《MaxCompute Spark 开发指南》第四节在 pom 中添加依赖后重新 打包即可。 6.6 外表迁移 1. HDFS-> MaxCompute 的数据迁移,原则上全部迁到 MaxCompute 内部表。 2. 如果客户场景要求必须通过外表访问外部文件,需要先将文件迁移到 OSS 或者0 码力 | 59 页 | 4.33 MB | 1 年前3 Hadoop 迁移到阿里云MaxCompute 技术方案利用迁移工具,可以对 Hive 作业进行兼容性分析,识别出需要修改的任务并提供针对性的 兼容性修改建议。对于用户自定义逻辑的分析任务,如 UDF、MR/Spark 作业等,我们将给出 一般性的改造建议供用户参考。 4.2.4 数据集成及工作流作业迁移 迁移工具支持对主流数据集成工具 Sqoop 进行作业的迁移转换,并自动创建 Dataworks 数据集成作业;迁移工具支持主流 Pipeline 工具,如 包可直接运行,参照《MaxCompute Spark 开发指南》第二节准备开发环境和修改配置。注意,对于 spark 或 hadoop 的依赖必须设成 provided。 Alibaba Cloud MaxCompute 解决方案 44 2. 【作业需要访问 MaxCompute 表】参考《MaxCompute Spark 开发指南》第三节编译 datasource 并安装到本地 maven maven 仓库,在 pom 中添加依赖后重新打包即可。 3. 【作业需要访问 OSS】参考《MaxCompute Spark 开发指南》第四节在 pom 中添加依赖后重新 打包即可。 6.6 外表迁移 1. HDFS-> MaxCompute 的数据迁移,原则上全部迁到 MaxCompute 内部表。 2. 如果客户场景要求必须通过外表访问外部文件,需要先将文件迁移到 OSS 或者0 码力 | 59 页 | 4.33 MB | 1 年前3
共 1 条
- 1













