 大数据集成与Hadoop - IBM集成工作负载。但无论选择哪种方法,信息基础架构都必须满足 一个常见的要求:全面支持大规模可扩展处理。 某些数据集成操作在RDBMS引擎内外的运行效率较高。同样, 并非所有数据集成操作均适用于Hadoop环境。设计精妙的架 构必须足够灵活,可以充分利用系统中每个环境的优势(参见 图3)。 在ETL网格中运行 在数据库中运行 在Hadoop中运行 图3. 大数据集成需要一种可利用任何环境优势的平衡方法。 优点 • 利用ETL 较为复杂 的逻辑推送到RDBMS。 • 数据质量受到影响。 • 关键任务(如数据剖析)无法实现自动化-在很多情况下 根本无法执行。 • 未实施有效的数据治理(数据管理、数据沿袭、影响分 析),因而响应法规要求变得更加困难且非常昂贵,对 关键业务数据的信心更无从谈起。 相反,采用海量可扩展数据集成平台来优化大数据集成工作 负载的企业,则可最大限度降低潜在的负面影响,更有效地通 过大数据实现业务转型。0 码力 | 16 页 | 1.23 MB | 1 年前3 大数据集成与Hadoop - IBM集成工作负载。但无论选择哪种方法,信息基础架构都必须满足 一个常见的要求:全面支持大规模可扩展处理。 某些数据集成操作在RDBMS引擎内外的运行效率较高。同样, 并非所有数据集成操作均适用于Hadoop环境。设计精妙的架 构必须足够灵活,可以充分利用系统中每个环境的优势(参见 图3)。 在ETL网格中运行 在数据库中运行 在Hadoop中运行 图3. 大数据集成需要一种可利用任何环境优势的平衡方法。 优点 • 利用ETL 较为复杂 的逻辑推送到RDBMS。 • 数据质量受到影响。 • 关键任务(如数据剖析)无法实现自动化-在很多情况下 根本无法执行。 • 未实施有效的数据治理(数据管理、数据沿袭、影响分 析),因而响应法规要求变得更加困难且非常昂贵,对 关键业务数据的信心更无从谈起。 相反,采用海量可扩展数据集成平台来优化大数据集成工作 负载的企业,则可最大限度降低潜在的负面影响,更有效地通 过大数据实现业务转型。0 码力 | 16 页 | 1.23 MB | 1 年前3
 Hadoop 迁移到阿里云MaxCompute 技术方案阿里云大数据与开源生态对比 2.1 Hadoop 及开源生态与阿里云大数据生态对比 2.1.1 主流大数据体系架构 Hadoop 及开源生态由一系列的开源组件共同组成,很多用户基于 Hadoop 及开源生态组件构 建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括:  数据源:数据源包括关系型数据库、日志文件、实时消息等。 Alibaba Cloud MaxCompute 解决方案 20 5.1 阶段 1:调研评估&迁移方案 重点进行迁移前的评估分析,通过迁移工具对 Hadoop 平台的相关信息进行收集和诊断分 析,形成迁移分析报告,供决策者评估使用。 同时,根据诊断分析报告的内容,用户可以根据自身业务现状,制定迁移方案和计划。 5.2 阶段 2:试点/全面业务迁移 在确定开展迁移工作后,需要准备0 码力 | 59 页 | 4.33 MB | 1 年前3 Hadoop 迁移到阿里云MaxCompute 技术方案阿里云大数据与开源生态对比 2.1 Hadoop 及开源生态与阿里云大数据生态对比 2.1.1 主流大数据体系架构 Hadoop 及开源生态由一系列的开源组件共同组成,很多用户基于 Hadoop 及开源生态组件构 建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括:  数据源:数据源包括关系型数据库、日志文件、实时消息等。 Alibaba Cloud MaxCompute 解决方案 20 5.1 阶段 1:调研评估&迁移方案 重点进行迁移前的评估分析,通过迁移工具对 Hadoop 平台的相关信息进行收集和诊断分 析,形成迁移分析报告,供决策者评估使用。 同时,根据诊断分析报告的内容,用户可以根据自身业务现状,制定迁移方案和计划。 5.2 阶段 2:试点/全面业务迁移 在确定开展迁移工作后,需要准备0 码力 | 59 页 | 4.33 MB | 1 年前3
 银河麒麟服务器操作系统V4 Hadoop 软件适配手册ResourceManager 负责整个系统 的资源管理和分配,而 ApplicationMaster 负责单个应用程序的管理。 YARN 总 体 上 仍 然 是 master/slave 结 构 , 在 整 个 资 源 管 理 框 架 中 , resourcemanager 为 master,nodemanager 是 slave。Resourcemanager 负责对各个 nademanger0 码力 | 8 页 | 313.35 KB | 1 年前3 银河麒麟服务器操作系统V4 Hadoop 软件适配手册ResourceManager 负责整个系统 的资源管理和分配,而 ApplicationMaster 负责单个应用程序的管理。 YARN 总 体 上 仍 然 是 master/slave 结 构 , 在 整 个 资 源 管 理 框 架 中 , resourcemanager 为 master,nodemanager 是 slave。Resourcemanager 负责对各个 nademanger0 码力 | 8 页 | 313.35 KB | 1 年前3
 Hadoop 概述常好的方法。借助这些服务和工具,Hadoop 生态系统将继续发展, 并清除分析处理和管理大数据湖中的一些障碍。通过使用本章中讨 论的一些工具和服务,Hadoop 即可集成到数据生态系统的层次结 构中。 Horton 数据平台(Horton Data Platform,HDP)是一个生态系统。 HDP 能够帮助你通过使用虚拟机上的单节点群集来开始 Hadoop 之 旅,如图 1-4 所示。由于0 码力 | 17 页 | 583.90 KB | 1 年前3 Hadoop 概述常好的方法。借助这些服务和工具,Hadoop 生态系统将继续发展, 并清除分析处理和管理大数据湖中的一些障碍。通过使用本章中讨 论的一些工具和服务,Hadoop 即可集成到数据生态系统的层次结 构中。 Horton 数据平台(Horton Data Platform,HDP)是一个生态系统。 HDP 能够帮助你通过使用虚拟机上的单节点群集来开始 Hadoop 之 旅,如图 1-4 所示。由于0 码力 | 17 页 | 583.90 KB | 1 年前3
 通过Oracle 并行处理集成 Hadoop 数据FUSE 不可用),外部表方法可能不适用。Oracle 表函数提供了 从 Hadoop 中获取数据的替代方法。本文附带的示例展示了一种这样的方法。更深入地来 讲,我们用一个表函数来实现,这个表函数使用 DBMS_SCHEDULER 框架异步调用外部shell 脚本,然后由这个shell脚本提交一个Hadoop Map-Reduce 作业。该表函数与映射器 (mapper) 之 间使用 Oracle 高级队列特性进行通信。Hadoop mapper 将数据排入一个公共队列,而表函数则 从该队列中取出数据。由于该表函数能够并行运行,因此使用额外的逻辑来确保仅有一个服 务进程提交外部作业。 3 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 图 2. 利用表函数进行并行处理 由于表函数可以并行运行,Hadoop 流作业也可以不同程度地并行运行,并且后者不受 查询协调器的控制,这种情况下,队列能提供负载平衡。 4 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 利用表函数的示例 下面我们将以一个实际示例展示图 2 的架构。请注意,我们的示例仅展示了使用表函数访问 Hadoop 中存储的数据的一个模板实现。显然可能存在其他的甚至可能更好的实现。 下图是图 2 中原始示意图在技术上更准确、更具体的展示,解释了我们要在何处、如何使用0 码力 | 21 页 | 1.03 MB | 1 年前3 通过Oracle 并行处理集成 Hadoop 数据FUSE 不可用),外部表方法可能不适用。Oracle 表函数提供了 从 Hadoop 中获取数据的替代方法。本文附带的示例展示了一种这样的方法。更深入地来 讲,我们用一个表函数来实现,这个表函数使用 DBMS_SCHEDULER 框架异步调用外部shell 脚本,然后由这个shell脚本提交一个Hadoop Map-Reduce 作业。该表函数与映射器 (mapper) 之 间使用 Oracle 高级队列特性进行通信。Hadoop mapper 将数据排入一个公共队列,而表函数则 从该队列中取出数据。由于该表函数能够并行运行,因此使用额外的逻辑来确保仅有一个服 务进程提交外部作业。 3 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 图 2. 利用表函数进行并行处理 由于表函数可以并行运行,Hadoop 流作业也可以不同程度地并行运行,并且后者不受 查询协调器的控制,这种情况下,队列能提供负载平衡。 4 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 利用表函数的示例 下面我们将以一个实际示例展示图 2 的架构。请注意,我们的示例仅展示了使用表函数访问 Hadoop 中存储的数据的一个模板实现。显然可能存在其他的甚至可能更好的实现。 下图是图 2 中原始示意图在技术上更准确、更具体的展示,解释了我们要在何处、如何使用0 码力 | 21 页 | 1.03 MB | 1 年前3
 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖
用于处理数据规模超过单个机器或群集的内存承载能力的数据集合 ▪ 使用方式等同于MATLAB 数组(array) – 支持数据类型包括数值型、字符串、时间类型、表等… – 支持众多基本的数学函数、统计函数、索引函数等. – 支持机器学习算法包括分类、聚类和回归 7 tall array Single Machine Memory tall arrays ▪ 自动将数据分解成适合内存的小0 码力 | 17 页 | 1.64 MB | 1 年前3 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖
用于处理数据规模超过单个机器或群集的内存承载能力的数据集合 ▪ 使用方式等同于MATLAB 数组(array) – 支持数据类型包括数值型、字符串、时间类型、表等… – 支持众多基本的数学函数、统计函数、索引函数等. – 支持机器学习算法包括分类、聚类和回归 7 tall array Single Machine Memory tall arrays ▪ 自动将数据分解成适合内存的小0 码力 | 17 页 | 1.64 MB | 1 年前3
共 6 条
- 1













