依赖关系 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Hadoop 迁移到阿里云MaxCompute 技术方案

及开源生态由一系列的开源组件共同组成，很多用户基于 Hadoop 及开源生态组件构建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构的逻辑组件关系如下图所示：这些逻辑组件包括：  数据源：数据源包括关系型数据库、日志文件、实时消息等。  数据存储：面向海量数据存储的分布式文件存储服务，支持结构化数据和非结构数据数据存储，我们也常称之为数据湖。如 zip，工具目录结构如下： Alibaba Cloud MaxCompute 解决方案 23 其中，bin 目录下是迁移工具所需的可执行文件，libs 目录下是工具所依赖的库，res 目录下是工具所需的其他依赖，如 odpscmd 等。 3. 获取 Hive metadata 4. 结果输出 Alibaba Cloud MaxCompute 解决方案 24 生成的目录，调用 odpscmd 自动创建 ODPS 表与分区。 Alibaba Cloud MaxCompute 解决方案 35 【注意】：odps_ddl_runner.py 需要依赖 odpscmd，因此在执行前，需要配置 odpscmd 的 config.ini 文件，配置方法请参见文档： https://help.aliyun.com/document_detail/27804

0 码力 | 59 页 | 4.33 MB | 1 年前
3
Curve核心组件之mds – 网易数帆

本PageFile支持块设备、三副本AppendFile（待开发）支持在线对象存储、AppendECFile（待开发）支持近线对象存储可以共存。如上所示LogicalPool与pool为多对一的关系，一个物理pool可以存放各种类型的file。当然由于curve支持多个pool，可以选择一个logicalPool独享一个pool。通过结合curve的用户系统，LogicalPool可以 PageFileSegment: segment是给文件分配空间的最小单位。 • PageFileChunkInfo: chunk是数据分片的最小单元。 segment 和 chunk的关系如下图:NAMESERVER Namespace的文件的目录层次关系如右图。文件的元数据以KV的方式存储。 • Key：ParentID + “/”+ BaseName； • Value：自身的文件ID。这种方式可以很好地平衡几个需求： ySet 可以理解为一组复制组，这组复制组的成员关系完全一样。CopySet的概念在文献「Copysets: Reducing the Frequency of Data Loss in Cloud Storage」提出。在 Curve 系统引入 CopySet 有几个目的： 1. 减少元数据量：如果为每个Chunk去保存复制组成员关系，需要至少 ChunkID+3×NodeID=20

0 码力 | 23 页 | 1.74 MB | 6 月前
3

共 2 条前往

页

Hadoop 迁移阿里 MaxCompute 技术方案 Curve 核心组件 mds 网易数帆

分类

语言

格式

Hadoop 迁移到阿里云MaxCompute 技术方案

Curve核心组件之mds – 网易数帆