Hadoop 迁移到阿里云MaxCompute 技术方案实现低延迟的在线服务等 分析与报表:对数据进行分析和展现以获取洞察。如 BI 工具、jupyter 等。 数据作业编排:将多个数据处理动作(数据移动、处理转换等)编排成为工作流并周期性地 执行以实现数据处理工作的自动化。如 Apache Oozie、Sqoop 等。 2.1.2 开源大数据组件架构 Alibaba Cloud MaxCompute 解决方案 9 * 完全自主开发的 compiler,语言功能开发更灵活,迭 代快,语法语义检查更加灵活高效 * 基于代价的优化器,更智能,更强大,更适合复杂的查 询 * 基于 LLVM 的代码生成,让执行过程更高效 * 支持复杂数据类型(array,map,struct) * 支持 Java、Python 语言的 UDF/UDAF/UDTF * 语法:Values、CTE、SEMIJOIN、FROM 解压工具包:odps-data-carrier.zip,工具目录结构如下: Alibaba Cloud MaxCompute 解决方案 23 其中,bin 目录下是迁移工具所需的可执行文件,libs 目录下是工具所依赖的库,res 目录下是 工具所需的其他依赖,如 odpscmd 等。 3. 获取 Hive metadata 4. 结果输出 Alibaba Cloud0 码力 | 59 页 | 4.33 MB | 1 年前3
Curve核心组件之mds – 网易数帆根据 chunkserver 上报的 copyset 信息更新拓扑 中的信息。 • ConfGenerator: 将当前上报的 copyset 信息提交给调度模块, 获取该 copyset 上可能需要执行的任务。 • HealthyChecker: 检查集群中的 chunkserver 在当前时间点距 离上一次心跳的时间,根据这个时间差更新chunkserver状态。 Chunkserver端:chunkserver ChunkServerInfo/CopySetInfo: 获取当前 chunkserver 上的 copyset 信息上报给 MDS。 • Order ConfigChange: 将 MDS 下发的任务提交给对应的 对应 模块执行。HEARTBEAT Chunk server的状态更新: • Online: chunk server在线,正常服务。 • Unstable: chunk server一段时间没收到心跳(默认 Schdedule的具体实现 Coordinator: 调度模块的对外接口。心跳会将 chunkserver上报上来的copyset信息提交给 Coordinator,内部根据该信息判断当前copyset是否 有配置变更任务执行,如果有任务则下发。 任务计算: 任务计算模块包含了多个定时任务 和 触 发任务。 • 定时任务由调度模块定时触发。 • 触发任务由外部触发,管理员通过工具触发。 • TopoAdapter0 码力 | 23 页 | 1.74 MB | 6 月前3
共 2 条
- 1













