均方误差 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

大数据集成与Hadoop - IBM

大数据集成工作负载。但无论选择哪种方法，信息基础架构都必须满足一个常见的要求：全面支持大规模可扩展处理。某些数据集成操作在RDBMS引擎内外的运行效率较高。同样，并非所有数据集成操作均适用于Hadoop环境。设计精妙的架构必须足够灵活，可以充分利用系统中每个环境的优势（参见图3）。在ETL网格中运行在数据库中运行在Hadoop中运行图3. 大数据集成需要一种可利用任何环境优势的平衡方法。据沿袭和跨工具影响分析。最佳实践3：可在需要运行海量可扩展数据集成的任何位置提供该功能 Hadoop能以极低的成本对数据集成工作负载实施大规模分布式处理。但是，客户需要的是海量可扩展数据集成解决方案，从而实现Hadoop可以提供的各种潜在优势。图5. 可扩展大数据集成必须适用于任何环境。设计一次作业随时随地运行和扩展该作业 Hadoop环境外部 Hadoop环境内部案例 ETL 工具与Hadoop均可提供全部所需的海量可扩展数据集成处理。事实上，MapReduce在处理大规模数据集成工作负载方面有着很多限制： • 并非所有数据集成逻辑均可使用 E T L 工具推送到 MapReduce。根据与广大客户的合作经验，IBM估计约有半数的数据集成逻辑无法推送到MapReduce。 • 用户不得不通过繁复的手动编码在Hadoop中运行较为

0 码力 | 16 页 | 1.23 MB | 1 年前
3
Hadoop 概述

本的硬件之上。它提供对应用程序数据的高吞吐量访问，适合于面向大型数据集的应用程序。在任何环境中，硬件故障都是不可避免的。有了 HDFS，你的数据可以跨越数千台服务器，而每台服务器上均包含一部分基础数据。这就是容错功能发挥作用的地方。现实情况是，这么多服务器总会遇到一台或者多台无法正常工作的风险。HDFS 具备检测故障和快速执行自动恢复的功能。 HDFS 的设计针对批处理做了优化，它提供高吞吐量的数据访 ORACLE R 客户端将 MapReduce 用于 R 计算图 1-10 1.5 小结通过使用 Hadoop Stack，你利用 Hadoop 在企业中实现最优方第 1 章 Hadoop 概述 17 案，并且与混合编程和高级工具相结合。如今大多数群集都在你的本地，但服务提供商给予了更多选择，使得数据也可以存储在云端。目前，SQL、关系型和非关系型数据存储均可使用

0 码力 | 17 页 | 583.90 KB | 1 年前
3
大数据时代的Intel之Hadoop

如欲获得本文戒其它英特尔文献中提及的带订单编号的文档副本，可致电 1-800-548-4725，戒访问http：//www.intel.com/design/literature.htm 性能测试和等级评定均使用特定的计算机系统和/戒组件迚行测量，这些测试大致反映了英特尔® 产品的性能。系统硬件、软件设计戒配置的仸何差异都可能影响实际性能。购买者应迚行多方咨询，以评估其考虑购买的系统戒组件的性能。如欲

0 码力 | 36 页 | 2.50 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（生产调优手册）

操作优化（1）数据倾斜（2）Map 运行时间太长，导致 Reduce 等待过久（3）小文件过多 8.2 MapReduce 常用调优参数 MapReduce优化（上） Map1方法分区1 分区2 写入数据第一次溢出排序第二次溢出 Combiner Combiner 归并排序归并排序合并 Combiner为可选流程压缩写磁盘分区1 输出分区1 输出分区1 输出内存缓冲磁盘数据内存不够溢出到磁盘归并排序分组 Reduce方法对每个map来的数据归并排序按照相同key分组 Map2方法输出数据 Map1方法输出数据 Reduce1处理流程拷贝拷贝 4）mapreduce.reduce.memory.mb 默认ReduceTask内存上限1024MB，根据128m数据对应1G内存原则，适当提高内存到4-6G 小文件弊端 HDFS 上每个文件都要在 NameNode 上创建对应的元数据，这个元数据的大小约为 150byte，这样当小文件比较多的时候，就会产生很多的元数据文件，一方面会大量占用 NameNode 的内存空间，另一方面就是元数据文件过多，使得寻址索引速度变慢。小文件过多，在进行 MR 计算时，会生成过多切片，需要启动过多的 MapTask。每个 MapTask 处理的数据量小，导致

0 码力 | 41 页 | 2.32 MB | 1 年前
3
這些年，我們一起追的Hadoop

Per-Application 配置，所以也不會變成新的瓶頸。因為 ApplicationMaster 是 Framework-Specific，所以 ResourceManager 就可以變成是一個中立的機制，方便支援各種不同 Framework。 23 / 74 YARN - Yet Another Resource Negotiator A General-Purpose Distributed Application and RDBMS Hadoop Ecosystem 30 / 74 HCatalog Hadoop 裡頭的 Naming Service 讓各種不同技術，不需要知道資料真實存放的位置，也能夠很方便地存取資料 31 / 74 Yahoo! 做出了 Pig，把 PigLatin 翻成一堆 MapReduce Job Facebook 做出了 Hive，把 HiveQL 翻成一堆 MapReduce Programming Java：曾經是 MapReduce 心裡頭的唯一現在是 YARN 裡面眾多語言的之一 Hadoop MapReduce Examples 是最基本的範例 popcorny 提供了一個方便好用的 Gradle 環境組態因為支援 Hadoop Streaming 的關係，其實要抓蛇的、開珠寶店的也都可以喔： 61 / 74 Dataflow 是 MapReduce 的繼承者，由數個

0 码力 | 74 页 | 45.76 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

中，也可以将 HDFS 的数据导进到关系型数据库中。 2）Flume：Flume 是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统， Flume 支持在日志系统中定制各类数据发送方，用于收集数据； 3）Kafka：Kafka 是一种高吞吐量的分布式发布订阅消息系统；尚硅谷大数据技术之 Hadoop（入门） ——

0 码力 | 35 页 | 1.70 MB | 1 年前
3

共 6 条前往

页

大数集成 Hadoop IBM 概述时代 Intel 硅谷技术生产调优手册這些我們一起入门

分类

语言

格式

大数据集成与Hadoop - IBM

Hadoop 概述

大数据时代的Intel之Hadoop

尚硅谷大数据技术之Hadoop（生产调优手册）

這些年，我們一起追的Hadoop

尚硅谷大数据技术之Hadoop（入门）