 通过Oracle 并行处理集成 Hadoop 数据Oracle 白皮书 2011 年 1 月 通过 Oracle 并行处理集成 Hadoop 数据 1 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 取对业务用户有价值的信息。 本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群里的数据。请注 意,本文选择了 Hadoop 和 HDFS 作为示例,但这里的策略同样适用于其他分 布式存储机制。本文中介绍了各种访问方法,还通过一个具体示例说明了其中一 种访问方法的实现。 2 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 外部 Hadoop 数据的访问方法 要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据,最简单的方法莫过于使用 外部表。请参阅这里了解外部表。 外部表以表的形式展示存储在文件系统中的数据,并且可在 SQL 查询中完全透明地使用。 因此,可以考虑用外部表从 Oracle 数据库中直接访问 HDFS(Hadoop 文件系统)中存储的 数据。遗0 码力 | 21 页 | 1.03 MB | 1 年前3 通过Oracle 并行处理集成 Hadoop 数据Oracle 白皮书 2011 年 1 月 通过 Oracle 并行处理集成 Hadoop 数据 1 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 取对业务用户有价值的信息。 本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群里的数据。请注 意,本文选择了 Hadoop 和 HDFS 作为示例,但这里的策略同样适用于其他分 布式存储机制。本文中介绍了各种访问方法,还通过一个具体示例说明了其中一 种访问方法的实现。 2 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 外部 Hadoop 数据的访问方法 要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据,最简单的方法莫过于使用 外部表。请参阅这里了解外部表。 外部表以表的形式展示存储在文件系统中的数据,并且可在 SQL 查询中完全透明地使用。 因此,可以考虑用外部表从 Oracle 数据库中直接访问 HDFS(Hadoop 文件系统)中存储的 数据。遗0 码力 | 21 页 | 1.03 MB | 1 年前3
 Hadoop 概述都由一个路径来标识,路径元素由斜杠(/)分隔。 还有其他一些系统能与 Hadoop 进行集成并从其基础架构中受 益。虽然 Hadoop 并不被认为是一种关系型数据库管理系统 (RDBMS),但其仍能与 Oracle、MySQL 和 SQL Server 等系统一起 工作。这些系统都已经开发了用于对接 Hadoop 框架的连接组件。 我们将在本章介绍这些组件中的一部分,并且展示它们如何与 Hadoop 14 Oracle 公司为其旗舰数据库引擎和 Hadoop 开发了一款软件。 这是一个实用工具的集合,协助集成 Oracle 的服务与 Hadoop Stack。 大数据连接器套件是一个工具集,提供深入分析和发现信息的能力, 并能快速集成基础设施中存储的所有数据。所有工具均是可扩展的, 如果你已经是或者未来将会成为 Oracle 的客户,那么这将很好地适 配于你的环境。Oracle 公司的套件中有很多工具,但我们在本章中 只会讲述其中的一部分。 Oracle XQuery for Hadoop 运行一个处理流程,它基于 XQuery 语言中表达的转换,将其转化成一系列 MapReduce 作业,这些作业 在 Apache Hadoop 群集上并行执行。输入数据可以位于文件系统上, 通过 Hadoop 分布式文件系统(HDFS)访问,或者存储在 Oracle 的 NoSQL 数据库中。Oracle XQuery for0 码力 | 17 页 | 583.90 KB | 1 年前3 Hadoop 概述都由一个路径来标识,路径元素由斜杠(/)分隔。 还有其他一些系统能与 Hadoop 进行集成并从其基础架构中受 益。虽然 Hadoop 并不被认为是一种关系型数据库管理系统 (RDBMS),但其仍能与 Oracle、MySQL 和 SQL Server 等系统一起 工作。这些系统都已经开发了用于对接 Hadoop 框架的连接组件。 我们将在本章介绍这些组件中的一部分,并且展示它们如何与 Hadoop 14 Oracle 公司为其旗舰数据库引擎和 Hadoop 开发了一款软件。 这是一个实用工具的集合,协助集成 Oracle 的服务与 Hadoop Stack。 大数据连接器套件是一个工具集,提供深入分析和发现信息的能力, 并能快速集成基础设施中存储的所有数据。所有工具均是可扩展的, 如果你已经是或者未来将会成为 Oracle 的客户,那么这将很好地适 配于你的环境。Oracle 公司的套件中有很多工具,但我们在本章中 只会讲述其中的一部分。 Oracle XQuery for Hadoop 运行一个处理流程,它基于 XQuery 语言中表达的转换,将其转化成一系列 MapReduce 作业,这些作业 在 Apache Hadoop 群集上并行执行。输入数据可以位于文件系统上, 通过 Hadoop 分布式文件系统(HDFS)访问,或者存储在 Oracle 的 NoSQL 数据库中。Oracle XQuery for0 码力 | 17 页 | 583.90 KB | 1 年前3
 這些年,我們一起追的Hadoop) 所以,市面上就有了一堆大同小異的 Hadoop Distribution: Cloudera 有 Cloudera Distribution for Hadoop (CDH) Oracle 有 Oracle Big Data Appliance Intel 以前有 Intel Distribution for Hadoop (IDH),現在是直接與 Cloudera 合作 Hortonworks Cloudera Distribution for Hadoop 2014 年獲得 900M 的資金挹注,其中 740M 來自 Intel。 41 / 74 Oracle Big Data Appliance Oracle Big Data Platform 的底層是 Cloudera Distribution for Hadoop (CDH)。 42 / 74 Hortonworks 54 / 74 超級(女)英雄們也是有分派系的! Hadoop 小圈圈 55 / 74 Cloudera 派: Intel (金主) DataBricks (Spark 平台) IBM Oracle MapR ... Hortonworks 派: Microsoft (生命共同體) ... 56 / 74 意見分歧?殊途同歸? Hive vs. Impala Did Cloudera0 码力 | 74 页 | 45.76 MB | 1 年前3 這些年,我們一起追的Hadoop) 所以,市面上就有了一堆大同小異的 Hadoop Distribution: Cloudera 有 Cloudera Distribution for Hadoop (CDH) Oracle 有 Oracle Big Data Appliance Intel 以前有 Intel Distribution for Hadoop (IDH),現在是直接與 Cloudera 合作 Hortonworks Cloudera Distribution for Hadoop 2014 年獲得 900M 的資金挹注,其中 740M 來自 Intel。 41 / 74 Oracle Big Data Appliance Oracle Big Data Platform 的底層是 Cloudera Distribution for Hadoop (CDH)。 42 / 74 Hortonworks 54 / 74 超級(女)英雄們也是有分派系的! Hadoop 小圈圈 55 / 74 Cloudera 派: Intel (金主) DataBricks (Spark 平台) IBM Oracle MapR ... Hortonworks 派: Microsoft (生命共同體) ... 56 / 74 意見分歧?殊途同歸? Hive vs. Impala Did Cloudera0 码力 | 74 页 | 45.76 MB | 1 年前3
 大数据时代的Intel之Hadoop在交通、金融等领域,要求存储大量的图片 • 将图片存入HBase,引起大量的compaction • 将图片存入HDFS,管理使用麻烦 IDH引入了表外存储以解决大对象的高效存储问题 • 类似Oracle的BLOB存储 • 对用户透明 • 2X以上的写入性能,还有迚一步提升的空间 • 2X的随机访问性能 • 1.3X的Scan性能 • 接近直接写入HDFS性能 Interactive0 码力 | 36 页 | 2.50 MB | 1 年前3 大数据时代的Intel之Hadoop在交通、金融等领域,要求存储大量的图片 • 将图片存入HBase,引起大量的compaction • 将图片存入HDFS,管理使用麻烦 IDH引入了表外存储以解决大对象的高效存储问题 • 类似Oracle的BLOB存储 • 对用户透明 • 2X以上的写入性能,还有迚一步提升的空间 • 2X的随机访问性能 • 1.3X的Scan性能 • 接近直接写入HDFS性能 Interactive0 码力 | 36 页 | 2.50 MB | 1 年前3
 尚硅谷大数据技术之Hadoop(入门)图中涉及的技术名词解释如下: 1)Sqoop:Sqoop 是一款开源的工具,主要用于在 Hadoop、Hive 与传统的数据库(MySQL) 间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进 到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。 2)Flume:Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,0 码力 | 35 页 | 1.70 MB | 1 年前3 尚硅谷大数据技术之Hadoop(入门)图中涉及的技术名词解释如下: 1)Sqoop:Sqoop 是一款开源的工具,主要用于在 Hadoop、Hive 与传统的数据库(MySQL) 间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进 到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。 2)Flume:Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,0 码力 | 35 页 | 1.70 MB | 1 年前3
共 5 条
- 1













