Oracle - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

通过Oracle 并行处理集成 Hadoop 数据

Oracle 白皮书 2011 年 1 月通过 Oracle 并行处理集成 Hadoop 数据 1 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据取对业务用户有价值的信息。本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群里的数据。请注意，本文选择了 Hadoop 和 HDFS 作为示例，但这里的策略同样适用于其他分布式存储机制。本文中介绍了各种访问方法，还通过一个具体示例说明了其中一种访问方法的实现。 2 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据外部 Hadoop 数据的访问方法要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据，最简单的方法莫过于使用外部表。请参阅这里了解外部表。外部表以表的形式展示存储在文件系统中的数据，并且可在 SQL 查询中完全透明地使用。因此，可以考虑用外部表从 Oracle 数据库中直接访问 HDFS（Hadoop 文件系统）中存储的数据。遗

0 码力 | 21 页 | 1.03 MB | 1 年前
3
Hadoop 概述

都由一个路径来标识，路径元素由斜杠(/)分隔。还有其他一些系统能与 Hadoop 进行集成并从其基础架构中受益。虽然 Hadoop 并不被认为是一种关系型数据库管理系统 (RDBMS)，但其仍能与 Oracle、MySQL 和 SQL Server 等系统一起工作。这些系统都已经开发了用于对接 Hadoop 框架的连接组件。我们将在本章介绍这些组件中的一部分，并且展示它们如何与 Hadoop 14 Oracle 公司为其旗舰数据库引擎和 Hadoop 开发了一款软件。这是一个实用工具的集合，协助集成 Oracle 的服务与 Hadoop Stack。大数据连接器套件是一个工具集，提供深入分析和发现信息的能力，并能快速集成基础设施中存储的所有数据。所有工具均是可扩展的，如果你已经是或者未来将会成为 Oracle 的客户，那么这将很好地适配于你的环境。Oracle 公司的套件中有很多工具，但我们在本章中只会讲述其中的一部分。 Oracle XQuery for Hadoop 运行一个处理流程，它基于 XQuery 语言中表达的转换，将其转化成一系列 MapReduce 作业，这些作业在 Apache Hadoop 群集上并行执行。输入数据可以位于文件系统上，通过 Hadoop 分布式文件系统(HDFS)访问，或者存储在 Oracle 的 NoSQL 数据库中。Oracle XQuery for

0 码力 | 17 页 | 583.90 KB | 1 年前
3
這些年，我們一起追的Hadoop

) 所以，市面上就有了一堆大同小異的 Hadoop Distribution： Cloudera 有 Cloudera Distribution for Hadoop (CDH) Oracle 有 Oracle Big Data Appliance Intel 以前有 Intel Distribution for Hadoop (IDH)，現在是直接與 Cloudera 合作 Hortonworks Cloudera Distribution for Hadoop 2014 年獲得 900M 的資金挹注，其中 740M 來自 Intel。 41 / 74 Oracle Big Data Appliance Oracle Big Data Platform 的底層是 Cloudera Distribution for Hadoop (CDH)。 42 / 74 Hortonworks 54 / 74 超級(女)英雄們也是有分派系的！ Hadoop 小圈圈 55 / 74 Cloudera 派： Intel (金主) DataBricks (Spark 平台) IBM Oracle MapR ... Hortonworks 派： Microsoft (生命共同體) ... 56 / 74 意見分歧？殊途同歸？ Hive vs. Impala Did Cloudera

0 码力 | 74 页 | 45.76 MB | 1 年前
3
大数据时代的Intel之Hadoop

在交通、金融等领域，要求存储大量的图片 • 将图片存入HBase，引起大量的compaction • 将图片存入HDFS，管理使用麻烦 IDH引入了表外存储以解决大对象的高效存储问题 • 类似Oracle的BLOB存储 • 对用户透明 • 2X以上的写入性能，还有迚一步提升的空间 • 2X的随机访问性能 • 1.3X的Scan性能 • 接近直接写入HDFS性能 Interactive

0 码力 | 36 页 | 2.50 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

图中涉及的技术名词解释如下： 1）Sqoop：Sqoop 是一款开源的工具，主要用于在 Hadoop、Hive 与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到 Hadoop 的 HDFS 中，也可以将 HDFS 的数据导进到关系型数据库中。 2）Flume：Flume 是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，

0 码力 | 35 页 | 1.70 MB | 1 年前
3

共 5 条前往

页

通过 Oracle 并行处理并行处理集成 Hadoop 数据概述這些我們一起大数时代 Intel 硅谷技术入门

分类

语言

格式

通过Oracle 并行处理集成 Hadoop 数据

Hadoop 概述

這些年，我們一起追的Hadoop

大数据时代的Intel之Hadoop

尚硅谷大数据技术之Hadoop（入门）