查询选择器 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

通过Oracle 并行处理集成 Hadoop 数据

要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据，最简单的方法莫过于使用外部表。请参阅这里了解外部表。外部表以表的形式展示存储在文件系统中的数据，并且可在 SQL 查询中完全透明地使用。因此，可以考虑用外部表从 Oracle 数据库中直接访问 HDFS（Hadoop 文件系统）中存储的数据。遗憾的是，常规的操作系统无法调用外部表驱动直接访问 HDFS 文件。FUSE（File 并行处理集成 Hadoop 数据图 2. 利用表函数进行并行处理由于表函数可以并行运行，Hadoop 流作业也可以不同程度地并行运行，并且后者不受 Oracle 查询协调器的控制，这种情况下，队列能提供负载平衡。 4 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据利用表函数的示例要在何处、如何使用后文给出的部分实际代码：图 3. 启动 Mapper 作业并检索数据第 1 步是确定由谁作为查询协调器。对此我们采用一种将具有相同键值的记录写入表的简单机制。首个插入胜出，作为此进程的查询协调器 (QC)。请注意，QC 表函数调用同时也承担着处理角色。在第 2 步中，该表函数调用 (QC) 使用 dbms_scheduler（图

0 码力 | 21 页 | 1.03 MB | 1 年前
3
Hadoop 概述

提供的大型数据存储和多种数据类型。第 1 章 Hadoop 概述 3 例如，让我们考虑类似 Google、Bing 或者 Twitter 这样的大型数据存储。所有这些数据存储都会随着诸如查询和庞大用户基数等活动事件而呈现出指数增长。Hadoop 的组件可以帮助你处理这些大型数据存储。类似 Google 这样的商业公司可使用 Hadoop 来操作、管理其数据存储并从中产大量数据来产生所需的结果。对于拥有大型数据存储或者数据湖的企业和组织来说，这是一种重要的组件，它将数据限定到可控的大小范围内，以便用于分析第 1 章 Hadoop 概述 5 或查询。如图 1-1 所示，MapReduce 的工作流程就像一个有着大量齿轮的古老时钟。在移动到下一个之前，每一个齿轮执行一项特定任务。它展现了数据被切分为更小尺寸以供处理的过渡状态。数据仓库基础设施，用于提供对数据的汇总、查询以及分析。如果你在使用 Hadoop 工作时期望数据库的体验并且怀念关系型环境中的结构(见图 1-3)，那么它或许是你的解决方案。记住，这不是与传统的数据库或数据结构进行对比。它也不能取代现有的 RDBMS 环 Hadoop 大数据解决方案 8 境。Hive 提供了一种为数据赋予结构的渠道，并且通过一种名为 HiveQL 的类 SQL 语言进行数据查询。

0 码力 | 17 页 | 583.90 KB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

2 Hadoop 发展历史（了解） Hadoop发展历史 1）Hadoop创始人Doug Cutting，为了实现与Google类似的全文搜索功能，他在Lucene框架基础上进行优化升级，查询引擎和索引引擎。 Hadoop创始人Doug Cutting 2）2001年年底Lucene成为Apache基金会的一个子项目。 3）对于海量数据的场景，Lucene框架面对与Google同样 HDFS文件存储 HBase非关系型数据库 YARN资源管理 MapReduce离线计算 Spark Core内存计算 Hive 数据查询 Spark Mlib 数据挖掘 Spark Streaming 实时计算 Spark Sql 数据查询 Oozie任务调度 Azkaban任务调度业务模型、数据可视化、业务应用 Z o o k e e p e r 数据平台配置不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。 8）Hive：Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。

0 码力 | 35 页 | 1.70 MB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

不暴露文件系统，输入输出都是表通过 MaxCompute 客户端工具、Dataworks 提交作业交互式分析 MaxCompute Lightning MaxCompute 产品的交互式查询服务，特性如下：兼容 PostgreSQL：兼容 PostgreSQL 协议的 JDBC/ODBC 接口，所有支持 PostgreSQL 数据库的工具或应用使用默认驱动都可以轻松地连接到 MaxCompute 项目。支持主流 BI 及 SQL 客户端工具的连接访问，如 Tableau、帆软 BI、Navicat、SQL Workbench/J 等。显著提升的查询性能：提升了一定数据规模下的查询性能，查询结果秒级可见，支持 BI 分析、Ad-hoc、在线服务等场景。 Alibaba Cloud MaxCompute 解决方案 14 Spark MaxCompute

0 码力 | 59 页 | 4.33 MB | 1 年前
3
大数据时代的Intel之Hadoop

50000 60000 70000 80000 90000 Open Source HBase (0.90.3) Advanced Region Balancing 25000 82000 查询数/秒揑入记录数/秒 HBase写入性能讨论写入时的性能瓶颈： • 客户端 • 使用Write buffer减少RPC • 避免频繁创建HTable对象 • 如果可以，关闭WAL • 2X的随机访问性能 • 1.3X的Scan性能 • 接近直接写入HDFS性能 Interactive Hive over HBase 可通过Hive来访问HBase，迚行SQL查询 • 使用MapReduce来实现 • 比Hive访问HDFS慢3~5倍 IDH引入了Interactive Hive over HBase • 完全的Hive支持：常用功能（select Hadoop方案 HBase：过车记录 HDFS：过车图片架构灵活，适应业务要求，成本大幅降低 0 5000 10000 15000 20000 25000 30000 过车查询(s) 套牌分析(s) 碰撞分析(s) 原有方案 30 3600 28800 Hadoop方案 1 60 240 响应时间

0 码力 | 36 页 | 2.50 MB | 1 年前
3
大数据集成与Hadoop - IBM

要首先进行大数据集成，所以企业必须确定如何优化整个企业的此类工作负载。一个Hadoop与大数据集成的重要用例是将大型ETL工作负载从企业数据仓库 (EDW) 卸载下来，以便降低成本并改善查询服务水平协议 (SLA)。该用例会引发以下问题： • 企业是否应卸载EDW中的所有ETL工作负载？ • 是否应将所有大数据集成工作负载都推送到Hadoop？ • 在没有并行关系数据库管理系统 • 利用数据库执行加入/聚合 • 清除数据后效果最佳 • 释放ETL服务器上的计算周期 • 利用RDBMS服务器的多余容量 • 数据库可以较快地执行某些流程缺点 • 硬件和存储费用昂贵 • 查询SLA出现降级 • 并非所有ETL逻辑均可推送到 RDBMS（使用ETL工具或手动编码） • 无法利用商业硬件 • 通常需要手动编码 • 复杂转换方面的限制 • 数据清理限制 • 数据库在执行某些流程时速以下是依赖ETL pushdown会造成的一些累积负面影响： • ETL包含大部分EDW工作负载。由于相关成本的影响，对于运行ETL的工作负载而言，EDW是一种非常昂贵的平台。 • ETL工作负载会导致查询SLA降级，最终需要您额外投资购买昂贵的EDW容量。 • 数据被转储到EDW之前未清理数据，一旦进入EDW环境将永远无法进行清理工作，继而导致数据质量较差。 • 企业持续严重依赖手动编码SQL脚本来执行数据转换。

0 码力 | 16 页 | 1.23 MB | 1 年前
3
Hadoop开发指南

source ~/.bashrc 2. HDFS HDFS是⼀个⾼度容错性和⾼吞吐量的分布式⽂件系统。它被设计的易于扩展也易于使⽤，适合海量⽂件的存储。 2.1 HDFS基础操作基础操作查询⽂件 Usage: hadoop fs [generic options] -ls [-d] [-h] [-R] [] 上传⽂件 Usage: hadoop fs [generic

0 码力 | 12 页 | 135.94 KB | 1 年前
3
尚硅谷大数据技术之Hadoop（生产调优手册）

209715200 bytes is more than the datanode's available RLIMIT_MEMLOCK ulimit of 65536 bytes. 我们可以通过该命令查询此参数的内存 [atguigu@hadoop102 hadoop-3.1.3]$ ulimit -a max locked memory (kbytes, -l) 64 第

0 码力 | 41 页 | 2.32 MB | 1 年前
3

共 8 条前往

页

通过 Oracle 并行处理并行处理集成 Hadoop 数据概述硅谷大数技术入门迁移阿里 MaxCompute 方案时代 Intel IBM 开发指南生产调优手册

分类

语言

格式

通过Oracle 并行处理集成 Hadoop 数据

Hadoop 概述

尚硅谷大数据技术之Hadoop（入门）

Hadoop 迁移到阿里云MaxCompute 技术方案

大数据时代的Intel之Hadoop

大数据集成与Hadoop - IBM

Hadoop开发指南

尚硅谷大数据技术之Hadoop（生产调优手册）