Hadoop 迁移到阿里云MaxCompute 技术方案对象 供后 续使 用。如 Hive、 MapReduce、Spark 等。 Alibaba Cloud MaxCompute 解决方案 8 实时消息采集:用于实时数据采集,可扩展、高吞吐、可靠的消息服务。如 Kafka。 流处理:对实时数据进行低延迟流式计算的服务。如 Flink、Spark Streaming、Storm 等。 机器学习:满足机器学习工作负载的服务。如当前流行的 不支持,需迁移至阿里云实时计算、EMR 流计算 组件或自建流计算服务 存储 HDFS/Hive 数据存储 MaxCompute Table,MaxCompute 不提供文件服 务,非结构化数据可迁移至 OSS,通过 MaxCompute 外表或 MaxCompute Spark 进行处理 分析 数据集成 Sqoop Kettle Datawroks 数据集成 编排&调度 Alibaba Cloud MaxCompute 解决方案 18 存储 HDFS/Hive 数据存储 MaxCompute Table,MaxCompute 不提供文件服 务,非结构化数据可迁移至 OSS,通过 MaxCompute 外表或 MaxCompute Spark 进行处 理分析 数据集成 Sqoop Kettle Datawroks 数据集成 编排&调度0 码力 | 59 页 | 4.33 MB | 1 年前3
Curve核心组件之mds – 网易数帆Curve核心组件之 MDS 陈威Curve 是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟 • 可支撑储场景:块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行一年多 • 已开源 • github主页: https://opencurve.github.io/ • github代码仓库: https://github ,可以以CopySet的粒度进行探活、配置变更,降低 开销。 3. 提高数据可靠性:在数据复制组过度打散的情况下,在发生多个节点同时故障的情况下,数据的可靠性会受 到影响。引入CopySet,可提高分布式存储系统中的数据持久性,降低数据丢失的概率。COPYSET ChunkServer,Copyset和Chunk三者之间的关系如下图: Mds在分配空间时,轮流在不同的copyset中分配 Schedule(系统调度)是为了实现系统的自动容错和负载均衡,这两个功能是分布式 存储系统的核心问题,也是 curve 是否能上生产环境的决定因素之一。 • 自动容错保证常见异常(如坏盘、机器宕机)导致的数据丢失不依赖人工处理,可 以自动修复。 • 负载均衡和资源均衡保证集群中的磁盘、cpu、内存等资源的利用率最大化。SCHEDULE Schdedule的具体实现 Coordinator: 调度模块的对外接口。心跳会将0 码力 | 23 页 | 1.74 MB | 6 月前3
共 2 条
- 1













