Hadoop 迁移到阿里云MaxCompute 技术方案.................................................................................. 18 4.2.2 数据迁移自动化 ................................................................................................. .................... 42 Alibaba Cloud MaxCompute 解决方案 4 6.5.1 Hive SQL -> MaxCompute SQL 自动转换 ..................................................................... 42 6.5.2 UDF、MR 迁移 .... 分析与报表:对数据进行分析和展现以获取洞察。如 BI 工具、jupyter 等。 数据作业编排:将多个数据处理动作(数据移动、处理转换等)编排成为工作流并周期性地 执行以实现数据处理工作的自动化。如 Apache Oozie、Sqoop 等。 2.1.2 开源大数据组件架构 Alibaba Cloud MaxCompute 解决方案 9 2.1.3 阿里云大数据组件架构0 码力 | 59 页 | 4.33 MB | 1 年前3
Curve核心组件之mds – 网易数帆https://github.com/opencurve/curve 概述整体架构 01 02 03 MDS各组件详细介绍 Q&A基本架构 • 元数据节点 MDS 管理元数据信息 收集集群状态信息,自动调度 • 数据节点 Chunkserver 数据存储 副本一致性 • 客户端 Client 对元数据增删改查 对数据增删改查 • 快照克隆服务器MDS各个组件 MDS是中心节点,负责元数 Copyset: 副本放置策略。 • Heartbeat: 心跳模块。跟chunkserver进行交互,收集chunkserver上的负载信息、 copyset信息等。 • Scheduler: 调度模块。用于自动容错和负载均衡。TOPOLOGY topology用于管理和组织机器,利用底层机器的放置、网络的规划以面向业务提供如下功能和非功能需求。 1. 故障域的隔离:比如副本的放置分布在不同机器,不同机架,或是不同的交换机下面。 UNSTABLE ONLINE OFFLINESCHEDULE Schedule(系统调度)是为了实现系统的自动容错和负载均衡,这两个功能是分布式 存储系统的核心问题,也是 curve 是否能上生产环境的决定因素之一。 • 自动容错保证常见异常(如坏盘、机器宕机)导致的数据丢失不依赖人工处理,可 以自动修复。 • 负载均衡和资源均衡保证集群中的磁盘、cpu、内存等资源的利用率最大化。SCHEDULE0 码力 | 23 页 | 1.74 MB | 6 月前3
共 2 条
- 1













