用例图 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

大数据集成与Hadoop - IBM

应用程序纵向扩展：衡量软件在一个对称多处理器 (SMP) 系统中的多个处理器间实现线性数据可扩展性的有效程度。 • 应用程序横向扩展：确定软件在非共享架构的多个 SMP 节点间实现线性数据可扩展性的有效程度。图1. 海量数据可扩展性是一项大数据集成的强制要求。在大数据时代，企业必须支持MPP群集系统才能实现扩展。支持海量数据可扩展性的需求并非只与Hadoop基础架构的出现有关。多年来，领先的数据仓库供应商（如IBM和Teradata）大规模并行软件平台，有些企业采用此做法已有近20年。久而久之，这些供应商陆续集中关注4个常见的软件架构特征，以便为实现海量数据可扩展性提供支持，如图2所示。 IBM软件 5 图2. 海量数据可扩展性的4大特征。大部分商业数据集成软件平台在设计时从未考虑过支持海量数据可扩展性，这意味着在设计之初，并未考虑利用非共享大规模并行架构。它们依靠共享的内存多线程，而非软件数据流。息：http://ibm.co/UX1RqB 6 大数据集成与 Hadoop 优化大数据集成工作负载：一种平衡的方法由于几乎所有Hadoop大数据用例和场景都需要首先进行大数据集成，所以企业必须确定如何优化整个企业的此类工作负载。一个Hadoop与大数据集成的重要用例是将大型ETL工作负载从企业数据仓库 (EDW) 卸载下来，以便降低成本并改善查询服务水平协议 (SLA)。该用例会引发以下问题：

0 码力 | 16 页 | 1.23 MB | 1 年前
3
通过Oracle 并行处理集成 Hadoop 数据

数据库里访问某个文件系统中的外部文件或外部数据，最简单的方法莫过于使用外部表。请参阅这里了解外部表。外部表以表的形式展示存储在文件系统中的数据，并且可在 SQL 查询中完全透明地使用。因此，可以考虑用外部表从 Oracle 数据库中直接访问 HDFS（Hadoop 文件系统）中存储的数据。遗憾的是，常规的操作系统无法调用外部表驱动直接访问 HDFS 文件。FUSE（File System in HDFS 存储，并将其作为常规文件系统处理。通过使用一个此类驱动程序，并在数据库实例上挂载 HDFS（如果是 RAC 数据库，则在其所有实例上挂载 HDFS），即可使用外部表基础架构轻松访问 HDFS 文件。图 1. 用数据库内置的 MapReduce 通过外部表进行访问在图 1 中，我们利用 Oracle Database 11g 实现本文所述的数据库内的在有些情况下（例如，如果 FUSE 不可用），外部表方法可能不适用。Oracle 表函数提供了从 Hadoop 中获取数据的替代方法。本文附带的示例展示了一种这样的方法。更深入地来讲，我们用一个表函数来实现，这个表函数使用 DBMS_SCHEDULER 框架异步调用外部shell 脚本，然后由这个shell脚本提交一个Hadoop Map-Reduce 作业。该表函数与映射器 (mapper)

0 码力 | 21 页 | 1.03 MB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

........................................................................................ 44 7 经典用例 .................................................................................................. HDFS、对象存储服务等。  批处理：由于大数据场景必须处理大规模的数据集，批处理往往需要从数据存储中读取大量数据进行长时间处理分析，并将处理后的数据写入新的数据对象供后续使用。如 Hive、 MapReduce、Spark 等。 Alibaba Cloud MaxCompute 解决方案 8  实时消息采集：用于实时数据采集，可扩展、高吞吐、可靠的消息服务。如 Spark 交互式分析 Impala Presto Hawk GreenPlum 等交互式分析 MaxCompute Lightning，提供只读的交互式查询服务图计算 Spark GraphX MaxCompute Spark GraphX MaxCompute Graph 流式采集 Kafka Datahub，流式数据投递至 MaxCompute

0 码力 | 59 页 | 4.33 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

–python 人工智能资料下载，可百度访问：尚硅谷官网 Hadoop发展历史 6）2003-2004年，Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。 7）2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。 8）2006 MapReduce 应用，十分适合数据仓库的统计分析。 9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。 1.7 推荐系统框架图推荐系统项目框架数据库（结构化数据）文件日志（半结构化数据）视频、ppt等（非结构化数据） Sqoop数据传递 Flume日志收集 Kafka消息队列 HDFS文件存储 HBase非关系型数据库人工智能资料下载，可百度访问：尚硅谷官网尚硅谷大数据技术之模板虚拟机环境准备.docx 1）hadoop100 虚拟机配置要求如下（本文 Linux 系统全部以 CentOS-7.5-x86-1804 为例）（1）使用 yum 安装需要虚拟机可以正常上网，yum 安装前可以先测试下虚拟机联网情况 [root@hadoop100 ~]# ping www.baidu.com PING www

0 码力 | 35 页 | 1.70 MB | 1 年前
3
Hadoop 概述

据集并提供更高的吞吐量，它与群集中的机器进行直接交互。可将 Hadoop 想象为一个动力车间，它让单个 CPU 运行在群集中大量低成本的机器上。既然已经介绍了用于读取数据的工具，下一步便是用 MapReduce 来处理它。 1.1.3 MapReduce 是什么 MapReduce 是 Hadoop 的一个编程组件，用于处理和读取大型数据集。MapReduce 算法赋予了资源管理器数据节点数据节点数据节点节点管理器节点管理器节点管理器图 1-1 MapReduce 的功能使得它成为最常用的批处理工具之一。该处理器的灵活性使其能利用自身的影响力来挑战现有系统。通过将数据处理的工作负载分为多个并行执行的任务，MapReduce 允许其用户处理存储于 HDFS 上不限数量的任意类型的数据。因此，MapReduce 让 Hadoop ZooKeeper 的一个客户端改变集中式配置，便能改变分布式系统的状态。名称服务是将某个名称映射为与该名称相关信息的服务。它类似于活动目录，作为一项名称服务，活动目录的作用是将某人的用户 ID(用户名)映射为环境中的特定访问或权限。同样，DNS 服务作为名称服务，将域名映射为 IP 地址。通过在分布式系统中使用 ZooKeeper，你能记录哪些服务器或服务正处于运行状态，并且能够

0 码力 | 17 页 | 583.90 KB | 1 年前
3
尚硅谷大数据技术之Hadoop（生产调优手册）

3 第 1 章 HDFS—核心参数 1.1 NameNode 内存生产配置 1）NameNode 内存计算每个文件块大概占用 150byte，一台服务器 128G 内存为例，能存储多少文件块呢？ 128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1 亿 G MB KB Byte 2）Hadoop2.x 系列，配置 20 个压测后的速度：1.61 实测速度：1.61M/s * 20 个文件 ≈ 32M/s 三台服务器的带宽：12.5 + 12.5 + 12.5 ≈ 30m/s 所有网络资源都已经用满。如果实测速度远远小于网络，并且实测速度不能满足工作需求，可以考虑采用固态硬盘或者增加磁盘个数。（2）如果客户端不在集群节点，那就三个副本都参与计算 2.2 测试 HDFS 总数=6），就可以得到原始数据。每个单元的大小是 1024k=1024*1024=1048576。 RS-LEGACY-6-3-1024k：策略和上面的 RS-6-3-1024k 一样，只是编码的算法用的是 rs- legacy。 XOR-2-1-1024k：使用 XOR 编码（速度比 RS 编码快），每 2 个数据单元，生成 1 个校验单元，共 3 个单元，也就是说：这 3 个单元中，只要有任意的

0 码力 | 41 页 | 2.32 MB | 1 年前
3
大数据时代的Intel之Hadoop

是英特尔公司在美国和/戒其他国家戒地区的商标。英特尔® 主劢管理技术要求平台采用支持英特尔主劢管理技术的芯片组、网络硬件和软件。系统必须接通电源幵建立网络连接。就笔记本电脑而言，英特尔主劢管理技术可能在基亍主机操作系统的虚拟与用网（VPN）上，戒者在无线连接、使用电池电源、睡眠、休眠戒关机时无法使用戒是某些功能受到限制。如欲了解更多信息，请访问：httP： //www.intel.com/technology/iamt。虚拟化技术、支持英特尔可信执行技术的处理器、芯片组、基本输入输出系统（BIOS）、鉴别码模块，以及英特尔戒其它兼容的虚拟机监视器。此外，英特尔可信执行技术要求系统包含可信计算组定义的 TPMv1.2 以及用亍某些应用的特定软件。如欲了解更多信息，请访问：httP：//www.intel.com/technology/security/。 †英特尔® 超线程（HT）技术要求计算机系统具备支持英特尔超线程（HT）技术的英特尔® com/products/ht/hyperthreading_more.htm。英特尔® 虚拟化技术要求计算机系统具备支持英特尔虚拟化技术的英特尔® 处理器、基本输入输出系统、BIOS、虚拟机监视器、VMM、以及用亍某些应用的特定平台软件、功能、性能戒其它优势会根据软硬件配置的丌同而有所差异，可能需要对 BIOS 迚行更新。相关应用软件可能无法不所有的操作系统兼容。请咨询您的应用厂商以了解具体信息。 *文

0 码力 | 36 页 | 2.50 MB | 1 年前
3
银河麒麟服务器操作系统V4 Hadoop 软件适配手册

... 7 3.3 启动 RESOURCEMANAGER 和 NODEMANAGER 守护进程 .......................... 7 4 执行 WORDCOUNT 测试用例 .............................................................................. 7 银河麒麟服务器操作系统 V4 Slave 节点的 Container 中，具体做事情的 Task，同样也运行与某一个 Slave 节点的 Container 中。RM， NM，AM 乃至普通的 Container 之间的通信，都是用 RPC 机制。 2 Hadoop 软件适配 2.1 解压 hadoop 软件 $ tar -xvf hadoop-2.7.7.tar.gz -C /usr/local/ $ cd sbin/start-dfs.sh 3.3 启动 ResourceManager 和 NodeManager 守护进程 $ sbin/start-yarn.sh 4 执行 wordcount 测试用例 $ bin/hdfs dfs -ls / $ bin/hdfs dfs -mkdir /input $ bin/hdfs dfs -put /usr/local/hadoop-2.7

0 码力 | 8 页 | 313.35 KB | 1 年前
3
Hadoop开发指南

UHadoop集群默认配置2个Master节点，同⼀时刻只有⼀个节点Namenode处于Active状态，另⼀个处于Standby状态。下⾯以uhadoop-******-master1的Namenode为Active为例数据准备 touch uhadoop.txt echo "uhadoop" > uhadoop.txt 创建⽂件请求 curl -i -X PUT "http://uhadoop-**** r1:14000/webhdfs/v1/tmp/httpfs_uhadoop.txt?op=DELETE&user.name=root" 2.4 MapReduce Job 以terasort为例，说明如何提交⼀个MapReduce Job ⽣成官⽅terasort input数据集 hadoop jar /home/hadoop/hadoop-examples.jar teragen 100 dfsadmin -report 2.5.3 修改修改HDFS⽂件副本数量⽂件副本数量 hdfs dfs -setrep -R [replication-factor] [targetDir] ⽰例：修改HDFS 根⽬录下⽂件副本数量为2，hdfs dfs -setrep -R 2 / 2.5.4 查看查看HDFS⽂件系统状态⽂件系统状态 Hadoop开发指南 Copyright © 2012-2021

0 码力 | 12 页 | 135.94 KB | 1 年前
3
這些年，我們一起追的Hadoop

關技術的推廣，主要包括 Hadoop Platform 與 NoSQL 等 Big Data 相關應用，Google App Engine、Microsoft Azure 與 CloudBees 等雲端平台的運用，以及 Android、Windows Phone 等 Smart Phone 的應用程式開發。 PS. 除了我的照片之外，投影片裡頭所有的圖片都來自於 Google Search，版權歸原來各網站與企業所希望把 Hadoop 從 Batch 應用變成 Data Operating System：透過 MapReduce 進行 Batch Processing 透過 Hive 與 Tez 進行 Interactive SQL Query ... 15 / 74 MapReduce 改造前 Hadoop 原來的架構，MapReduce 是一切應用的基礎所有 Job 都得轉換成 MapReduce YARN 上頭另外發展 Tez、Storm、Giraph、Spark、 OpenMPI、... 18 / 74 MapReduce 改造 Phase 3 把原先跑在 MapReduce 上的應用 (Hive、Pig)，搬到更適合的 Computing Framework (比方說 Tez) 19 / 74 HDFS 也變強了： High Availability 可以有多個 Namespace

0 码力 | 74 页 | 45.76 MB | 1 年前
3

共 11 条前往

页

分类

语言

格式

大数据集成与Hadoop - IBM

通过Oracle 并行处理集成 Hadoop 数据

Hadoop 迁移到阿里云MaxCompute 技术方案

尚硅谷大数据技术之Hadoop（入门）

Hadoop 概述

尚硅谷大数据技术之Hadoop（生产调优手册）

大数据时代的Intel之Hadoop

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

Hadoop开发指南

這些年，我們一起追的Hadoop