大规模机器学习 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Hadoop 迁移到阿里云MaxCompute 技术方案

及开源生态与阿里云大数据生态对比 2.1.1 主流大数据体系架构 Hadoop 及开源生态由一系列的开源组件共同组成，很多用户基于 Hadoop 及开源生态组件构建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构的逻辑组件关系如下图所示：这些逻辑组件包括：  数据源：数据源包括关系型数据库、日志文件、实时消息等。   数据存储：面向海量数据存储的分布式文件存储服务，支持结构化数据和非结构数据数据存储，我们也常称之为数据湖。如 HDFS、对象存储服务等。  批处理：由于大数据场景必须处理大规模的数据集，批处理往往需要从数据存储中读取大量数据进行长时间处理分析，并将处理后的数据写入新的数据对象供后续使用。如 Hive、 MapReduce、Spark 等。实时消息采集：用于实时数据采集，可扩展、高吞吐、可靠的消息服务。如 Kafka。  流处理：对实时数据进行低延迟流式计算的服务。如 Flink、Spark Streaming、Storm 等。  机器学习：满足机器学习工作负载的服务。如当前流行的 Spark MLib/ML、Tensorflow 等。  分析型数据存储：对数据进行处理加工后，面向应用场景，将数据以结构化的方式进行存储，以便分析工具或分析应用能够获取数据。如利用

0 码力 | 59 页 | 4.33 MB | 1 年前
3
Curve核心组件之mds – 网易数帆

调度模块。用于自动容错和负载均衡。TOPOLOGY topology用于管理和组织机器，利用底层机器的放置、网络的规划以面向业务提供如下功能和非功能需求。 1. 故障域的隔离：比如副本的放置分布在不同机器，不同机架，或是不同的交换机下面。 2. 隔离和共享：不同用户的数据可以实现固定物理资源的隔离和共享。 • pool: 用于实现对机器资源进行物理隔离，server不能跨 Pool交互。运维上，建议以pool为单元进行物理资源的扩 • 文件查找：查找一个具体的文件 • 目录重命名：对一个目录/文件进行重命名当前元数据信息编码之后存储在 etcd 中。COPYSET Curve系统中数据分片的最小单位称之为Chunk。在大规模的存储容量下，会产生大量的Chunk，如此众多的 Chunk，会对元数据的存储、管理产生一定压力。因此引入CopySet的概念，CopySet类似于ceph的pg。CopySet 可以理解为一组 OFFLINESCHEDULE Schedule（系统调度）是为了实现系统的自动容错和负载均衡，这两个功能是分布式存储系统的核心问题，也是 curve 是否能上生产环境的决定因素之一。 • 自动容错保证常见异常（如坏盘、机器宕机）导致的数据丢失不依赖人工处理，可以自动修复。 • 负载均衡和资源均衡保证集群中的磁盘、cpu、内存等资源的利用率最大化。SCHEDULE Schdedule的具体实现 Coordinator:

0 码力 | 23 页 | 1.74 MB | 6 月前
3

共 2 条前往

页

Hadoop 迁移阿里 MaxCompute 技术方案 Curve 核心组件 mds 网易数帆

分类

语言

格式

Hadoop 迁移到阿里云MaxCompute 技术方案

Curve核心组件之mds – 网易数帆