Hadoop 迁移到阿里云MaxCompute 技术方案2.1.1 主流大数据体系架构 Hadoop 及开源生态由一系列的开源组件共同组成,很多用户基于 Hadoop 及开源生态组件构 建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括: 数据源:数据源包括关系型数据库、日志文件、实时消息等。 数据存储:面向海量数据存储的分布式文件存储服务,支持 机器学习:满足机器学习工作负载的服务。如当前流行的 Spark MLib/ML、Tensorflow 等。 分析型数据存储:对数据进行处理加工后,面向应用场景,将数据以结构化的方式进行存储, 以便分析工具或分析应用能够获取数据。如利用 MPP 数据仓库、Spark SQL 等支持 BI 工具 访问,利用 Hbase 实现低延迟的在线服务等 分析与报表:对数据进行分析和展现以获取洞察。如 MaxCompute 产品的交互式查询服务,特性如下: 兼容 PostgreSQL:兼容 PostgreSQL 协议的 JDBC/ODBC 接口,所有支持 PostgreSQL 数据库的工 具或应用使用默认驱动都可以轻松地连接到 MaxCompute 项目。支持主流 BI 及 SQL 客户端工具的 连接访问,如 Tableau、帆软 BI、Navicat、SQL Workbench/J0 码力 | 59 页 | 4.33 MB | 1 年前3
Curve核心组件之mds – 网易数帆UNSTABLE ONLINE OFFLINESCHEDULE Schedule(系统调度)是为了实现系统的自动容错和负载均衡,这两个功能是分布式 存储系统的核心问题,也是 curve 是否能上生产环境的决定因素之一。 • 自动容错保证常见异常(如坏盘、机器宕机)导致的数据丢失不依赖人工处理,可 以自动修复。 • 负载均衡和资源均衡保证集群中的磁盘、cpu、内存等资源的利用率最大化。SCHEDULE0 码力 | 23 页 | 1.74 MB | 6 月前3
共 2 条
- 1













