Curve核心组件之mds – 网易数帆管理文件的元数据信息。 • Copyset: 副本放置策略。 • Heartbeat: 心跳模块。跟chunkserver进行交互,收集chunkserver上的负载信息、 copyset信息等。 • Scheduler: 调度模块。用于自动容错和负载均衡。TOPOLOGY topology用于管理和组织机器,利用底层机器的放置、网络的规划以面向业务提供如下功能和非功能需求。 1. 故障域的隔离:比如 r的在线状态(online, unstable, offline) • 记录chunkserver定期上报的状态信息(磁盘容量,磁盘负载,copyset负载等),以提供运维工 具查看上述状态信息。 • 通过上述信息的定期更新,作为schedule 模块进行均衡及配置变更的依据 • 通过chunkserver定期上报copyset的copyset的epoch, 检测chunkserver的copyset与mds差异,同 OFFLINESCHEDULE Schedule(系统调度)是为了实现系统的自动容错和负载均衡,这两个功能是分布式 存储系统的核心问题,也是 curve 是否能上生产环境的决定因素之一。 • 自动容错保证常见异常(如坏盘、机器宕机)导致的数据丢失不依赖人工处理,可 以自动修复。 • 负载均衡和资源均衡保证集群中的磁盘、cpu、内存等资源的利用率最大化。SCHEDULE Schdedule的具体实现0 码力 | 23 页 | 1.74 MB | 6 月前3
Hadoop 迁移到阿里云MaxCompute 技术方案................................................................. 15 3.1 迁移基于 Hadoop 的数据湖/数据仓库业务负载 ......................................................................... 15 3.2 不同的网络环境及部署形态迁移 高吞吐、可靠的消息服务。如 Kafka。 流处理:对实时数据进行低延迟流式计算的服务。如 Flink、Spark Streaming、Storm 等。 机器学习:满足机器学习工作负载的服务。如当前流行的 Spark MLib/ML、Tensorflow 等。 分析型数据存储:对数据进行处理加工后,面向应用场景,将数据以结构化的方式进行存储, 以便分析工具或分析应用能够获取数据。如利用 迁移场景分析 3.1 迁移基于 Hadoop 的数据湖/数据仓库业务负载 根据 MaxCompute 产品的定位和特性,您可以将基于 Hadoop 为核心的数据湖、数据仓库及 周边配套工具(数据集成、数据开发、作业调度、数据治理等)业务负载迁移至 MaxCompute 及 Dataworks 的云原生大数据平台解决方案。 工作负载 Hadoop 开源生态 MaxCompute 产品组件/MaxCompute0 码力 | 59 页 | 4.33 MB | 1 年前3
共 2 条
- 1













