Hadoop 迁移到阿里云MaxCompute 技术方案及开源生态由一系列的开源组件共同组成,很多用户基于 Hadoop 及开源生态组件构 建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括: 数据源:数据源包括关系型数据库、日志文件、实时消息等。 数据存储:面向海量数据存储的分布式文件存储服务,支持 结构化数据和非结构数据数据存 储,我们也常称之为数据湖。如 zip,工具目录结构如下: Alibaba Cloud MaxCompute 解决方案 23 其中,bin 目录下是迁移工具所需的可执行文件,libs 目录下是工具所依赖的库,res 目录下是 工具所需的其他依赖,如 odpscmd 等。 3. 获取 Hive metadata 4. 结果输出 Alibaba Cloud MaxCompute 解决方案 24 生成的目录,调 用 odpscmd 自动创建 ODPS 表与分区。 Alibaba Cloud MaxCompute 解决方案 35 【注意】:odps_ddl_runner.py 需要依赖 odpscmd,因此在执行前,需要配置 odpscmd 的 config.ini 文件,配置方法请参见文档: https://help.aliyun.com/document_detail/278040 码力 | 59 页 | 4.33 MB | 1 年前3
Curve核心组件之mds – 网易数帆本PageFile支持块设备、三副本AppendFile(待开发)支持在线对象存储、AppendECFile(待开发)支持 近线对象存储可以共存。 如上所示LogicalPool与pool为多对一的关系,一个物理pool可以存放各种类型的file。当然由于curve支持 多个pool,可以选择一个logicalPool独享一个pool。 通过结合curve的用户系统,LogicalPool可以 PageFileSegment: segment是给文件分配空间的最小单位 。 • PageFileChunkInfo: chunk是数据分片的最小单元。 segment 和 chunk的关系如下图:NAMESERVER Namespace的文件的目录层次关系如右图。 文件的元数据以KV的方式存储。 • Key:ParentID + “/”+ BaseName; • Value:自身的文件ID。 这种方式可以很好地平衡几个需求: ySet 可以理解为一组复制组,这组复制组的成员关系完全一样。CopySet的概念在文献「Copysets: Reducing the Frequency of Data Loss in Cloud Storage」提出。 在 Curve 系统引入 CopySet 有几个目的: 1. 减少元数据量:如果为每个Chunk去保存复制组成员关系,需要至少 ChunkID+3×NodeID=200 码力 | 23 页 | 1.74 MB | 6 月前3
共 2 条
- 1













