集下 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Hadoop 迁移到阿里云MaxCompute 技术方案

数据存储：面向海量数据存储的分布式文件存储服务，支持结构化数据和非结构数据数据存储，我们也常称之为数据湖。如 HDFS、对象存储服务等。  批处理：由于大数据场景必须处理大规模的数据集，批处理往往需要从数据存储中读取大量数据进行长时间处理分析，并将处理后的数据写入新的数据对象供后续使用。如 Hive、 MapReduce、Spark 等。 Alibaba 使用时，存储与计算解耦，不需要仅仅为了存储扩大不必要的计算资源 SQL MaxCompute SQL TPC-DS 100% 支持，同时语法高度兼容 Hive，有 Hive 背景开发者直接上手，特别在大数据规模下性能强大。 * 完全自主开发的 compiler，语言功能开发更灵活，迭代快，语法语义检查更加灵活高效 * 基于代价的优化器，更智能，更强大，更适合复杂的查询 * 基于 LLVM 的代码生成，让执行过程更高效 MaxCompute 项目。支持主流 BI 及 SQL 客户端工具的连接访问，如 Tableau、帆软 BI、Navicat、SQL Workbench/J 等。显著提升的查询性能：提升了一定数据规模下的查询性能，查询结果秒级可见，支持 BI 分析、Ad-hoc、在线服务等场景。 Alibaba Cloud MaxCompute 解决方案 14 Spark MaxCompute

0 码力 | 59 页 | 4.33 MB | 1 年前
3
Curve核心组件之mds – 网易数帆

文件查找：查找一个具体的文件 • 目录重命名：对一个目录/文件进行重命名当前元数据信息编码之后存储在 etcd 中。COPYSET Curve系统中数据分片的最小单位称之为Chunk。在大规模的存储容量下，会产生大量的Chunk，如此众多的 Chunk，会对元数据的存储、管理产生一定压力。因此引入CopySet的概念，CopySet类似于ceph的pg。CopySet 可以理解为一组复制组，这组复间的通信将会非常复杂，例如复制组内Primary给Secondary定期发送心跳进行探活，在256K个复制组的情况下，心跳的流量将会非常大；而引入CopySet的概念之后，可以以CopySet的粒度进行探活、配置变更，降低开销。 3. 提高数据可靠性：在数据复制组过度打散的情况下，在发生多个节点同时故障的情况下，数据的可靠性会受到影响。引入CopySet，可提高分布式存储系统中的数据持久性，降低数据丢失的概率。COPYSET CopySetScheduler 是copyset均衡调度器，根据集群中copyset的分布情况生成copyset迁移任务； • LeaderScheduler 是leader均衡调度器，根据集群中leader的分布情况生成leader变更任务； • ReplicaScheduler 是副本数量调度器，根据当前copyset的副本数生成副本增删任务； • RecoverScheduler

0 码力 | 23 页 | 1.74 MB | 6 月前
3

共 2 条前往

页

Hadoop 迁移阿里 MaxCompute 技术方案 Curve 核心组件 mds 网易数帆

分类

语言

格式

Hadoop 迁移到阿里云MaxCompute 技术方案

Curve核心组件之mds – 网易数帆