Hadoop 迁移到阿里云MaxCompute 技术方案 数据存储:面向海量数据存储的分布式文件存储服务,支持 结构化数据和非结构数据数据存 储,我们也常称之为数据湖。如 HDFS、对象存储服务等。 批处理:由于大数据场景必须处理大规模的数据集,批处理往往需要从数据存储中读取大量 数据进 行长 时间 处理 分析 ,并将 处理 后的 数据 写 入 新的 数据 对象 供后 续使 用。如 Hive、 MapReduce、Spark 等。 级”大数据计算服务,利用 MaxCompute 可以构建敏捷、高效的企业数据管理平台。 Alibaba Cloud MaxCompute 解决方案 11 2.2.1 MaxComptue 的逻辑架构 2.2.2 MaxCompute 产品特性 MaxCompute 提供了云原生、多租户的服务架构,在底层大规模计算、存储资源之上预先构建 好了 MaxCompute 开发工具管理工具,产 品开箱即用。 功能 MaxCompute 产品组件 特性介绍 数据存储 MaxCompute 表 (基于盘古分布式存储) MaxCompute 支持大规模计算存储,适用于 TB 以上规 模的存储及计算需求,最大可达 EB 级别。同一个 MaxCompute 项目支持企业从创业团队发展到独角兽的 数据规模需求; 数据分布式存储,多副本冗余,数据存储对外仅开放表的0 码力 | 59 页 | 4.33 MB | 1 年前3
大数据集成与Hadoop - IBM依靠收集、移动、转换、清除、集成、治理、探索以及分析多种 不同来源的大量不同类型的数据来实现大数据与Hadoop项 目。实现所有这些目标需要运用富有弹性的端到端信息集成 解决方案,该解决方案不仅可实现大规模扩展,还能提供支持 Hadoop项目所需的基础架构、功能、流程和行为准则。 “在很大程度上,80%的大数据项目开发 精力用于数据集成,只有20%的精力投入 到数据分析中。” —Intel Corporation,“使用 Resource Negotiator(YARN) 纳入了MapReduce的资源管理功能,并将它们内置其 中,这样需要在Hadoop群集间动态执行的其他应用即可 使用它们。结果是,这种方法可将大规模可扩展数据集成 引擎作为本机 Hadoop应用程序来实现,而且不会影响 MapReduce的性能。希望在Hadoop上实现可扩展性和 有效性的所有企业技术都需要采用YARN,并将其作为 产品路线图的一部分。 Server)纷纷提供可支持海量数据可扩展性的非共享大规模并 行软件平台,有些企业采用此做法已有近20年。 久而久之,这些供应商陆续集中关注4个常见的软件架构特征, 以便为实现海量数据可扩展性提供支持,如图2所示。 IBM软件 5 图2. 海量数据可扩展性的4大特征。 大部分商业数据集成软件平台在设计时从未考虑过支持海量数 据可扩展性,这意味着在设计之初,并未考虑利用非共享大规模 并行架构。它们依靠共享的内存多线程,而非软件数据流。0 码力 | 16 页 | 1.23 MB | 1 年前3
Hadoop 概述的组件可以帮助你处理这些大 型数据存储。 类似 Google 这样的商业公司可使用 Hadoop 来操作、管理其数 据存储并从中产生出有意义的结果。通常用于商业分析的传统工具 并不旨在处理或分析超大规模数据集,但 Hadoop 是一个适用于这 些商业模型的解决方案。 1.1.1 Hadoop 的组件 Hadoop Common 是 Hadoop 的基础,因为它包含主要服务和基 本进程 的应用程序具有良好的平衡性,能够支持 Windows 平台并与微软的 BI 工具(例如 Excel、Power View 和 PowerPivot)良 Hadoop 大数据解决方案 12 好地集成,创造出轻松分析这些大规模商业信息的独特方式。 访问数据 数据库、数据仓库 POWER CENTER Power Exchange 预处理 抽取数据 Web 服务器 批处理 消息队列、电子邮件、 器数据。 Hortonworks 或者 Cloudera 数据平台,以及 Informatica,使得 企业能够优化 ETL(抽取、转换、加载)工作流程,以便在 Hadoop 中长期存储和处理大规模数据。 Hadoop 与企业工具的集成使得组织能够将内部和外部的所有数 据用于获得完整的分析能力,并以此推动现代数据驱动业务的成功。 另一个例子,Hadoop Applier 提供了 MySQL0 码力 | 17 页 | 583.90 KB | 1 年前3
Hadoop 3.0以及未来Hadoop 的未来 HDFS的未来 • 对象存储 - HDFS-7240 • 更高性能的Namenode:更高效的内存使用,锁的改进等 • Erasure Coding的完善 YARN的未来 • 更大规模的集群支持 • 更好的资源调度,隔离和多租户 • 支持更多的应用,包括long running的service 谢谢 Q&A0 码力 | 33 页 | 841.56 KB | 1 年前3
共 4 条
- 1













