 大数据集成与Hadoop - IBM成 引擎作为本机 Hadoop应用程序来实现,而且不会影响 MapReduce的性能。希望在Hadoop上实现可扩展性和 有效性的所有企业技术都需要采用YARN,并将其作为 产品路线图的一部分。 开始集成之旅以前,请务必了解MapReduce的性能限 制,以及数据集成供应商在解决这类问题方面的差异。请在 “Themis: An I/O-Efficient MapReduce”一文中了 独立数据分区并行运行单一数据集成作业,也无法实现设计一 次作业,无需重新设计和重新调整作业即可在任何硬件配置中 非共享架构 从头开始创建软件,以便 利用非共享的大规模并行 架构,方法是将数据集分 散到多个计算节点,执行 单一应用程序(对每个数 据分区执行相同的应用程 序逻辑)。 使用软件数据流来实施 项目 软件数据流通过简化在一 个或多个节点实施和执行 数据管道和数据分区的过 程,从而充分利用非共享 Hadoop 平台由以下两个主要组件构成:分布式容错文件系统 (称为Hadoop Distributed File System (HDFS))和并 行处理框架(称为MapReduce)。 HDFS平台十分适合处理大型顺序操作,其中的数据读取“切 片”通常为64MB或128MB。通常情况下,除非应用程序加载 数据来管理相关任务,否则不会对HDFS文件进行分区或排 序。即使应用程序可以对生成的数据切片进行分区和排序,0 码力 | 16 页 | 1.23 MB | 1 年前3 大数据集成与Hadoop - IBM成 引擎作为本机 Hadoop应用程序来实现,而且不会影响 MapReduce的性能。希望在Hadoop上实现可扩展性和 有效性的所有企业技术都需要采用YARN,并将其作为 产品路线图的一部分。 开始集成之旅以前,请务必了解MapReduce的性能限 制,以及数据集成供应商在解决这类问题方面的差异。请在 “Themis: An I/O-Efficient MapReduce”一文中了 独立数据分区并行运行单一数据集成作业,也无法实现设计一 次作业,无需重新设计和重新调整作业即可在任何硬件配置中 非共享架构 从头开始创建软件,以便 利用非共享的大规模并行 架构,方法是将数据集分 散到多个计算节点,执行 单一应用程序(对每个数 据分区执行相同的应用程 序逻辑)。 使用软件数据流来实施 项目 软件数据流通过简化在一 个或多个节点实施和执行 数据管道和数据分区的过 程,从而充分利用非共享 Hadoop 平台由以下两个主要组件构成:分布式容错文件系统 (称为Hadoop Distributed File System (HDFS))和并 行处理框架(称为MapReduce)。 HDFS平台十分适合处理大型顺序操作,其中的数据读取“切 片”通常为64MB或128MB。通常情况下,除非应用程序加载 数据来管理相关任务,否则不会对HDFS文件进行分区或排 序。即使应用程序可以对生成的数据切片进行分区和排序,0 码力 | 16 页 | 1.23 MB | 1 年前3
 這些年,我們一起追的HadoopCluster 大概就是 4,000 - 4,500 個 Node JobTracker 是架構瓶頸,Concurrent Task 大概是 40,000 上下 HDFS 只能有一個 Namespace,沒辦法分開管控 /sales、/accounting、... 只能執行 MapReduce Job ... 弱弱的問一下:台灣有多少企業 Cluster 有這麼大?Task 有這麼 多? 11 / 74 最大的不同,負責與中央的 ResourceManager 與各地的 NodeManager 協調溝通,執行與監督各個 Container 的運作狀況,容錯也歸它管。 因為 ApplicationMaster 分擔了 MRv1 時代 ResourceManager 該做的絕大多數工 作,所以 MRv2 的 ResourceManager 就變得非常地 Scalable,撐到 10,000+ Node 也不是問題。又因為 framework for near real-time big data processing Inspired by Microsoft Dryad,是 Stinger Initiative 的一部分 Dataflow model on a directed acyclic graph (DAG) of nodes 能夠 讓 Query Plan 更簡單、更有效率 48 / 74 UC Berkeley0 码力 | 74 页 | 45.76 MB | 1 年前3 這些年,我們一起追的HadoopCluster 大概就是 4,000 - 4,500 個 Node JobTracker 是架構瓶頸,Concurrent Task 大概是 40,000 上下 HDFS 只能有一個 Namespace,沒辦法分開管控 /sales、/accounting、... 只能執行 MapReduce Job ... 弱弱的問一下:台灣有多少企業 Cluster 有這麼大?Task 有這麼 多? 11 / 74 最大的不同,負責與中央的 ResourceManager 與各地的 NodeManager 協調溝通,執行與監督各個 Container 的運作狀況,容錯也歸它管。 因為 ApplicationMaster 分擔了 MRv1 時代 ResourceManager 該做的絕大多數工 作,所以 MRv2 的 ResourceManager 就變得非常地 Scalable,撐到 10,000+ Node 也不是問題。又因為 framework for near real-time big data processing Inspired by Microsoft Dryad,是 Stinger Initiative 的一部分 Dataflow model on a directed acyclic graph (DAG) of nodes 能夠 讓 Query Plan 更簡單、更有效率 48 / 74 UC Berkeley0 码力 | 74 页 | 45.76 MB | 1 年前3
 Hadoop 概述(RDBMS),但其仍能与 Oracle、MySQL 和 SQL Server 等系统一起 工作。这些系统都已经开发了用于对接 Hadoop 框架的连接组件。 我们将在本章介绍这些组件中的一部分,并且展示它们如何与 Hadoop 进行交互。 1.1 商业分析与大数据 商业分析通过统计和业务分析对数据进行研究。Hadoop 允许你 在其数据存储中进行业务分析。这些结果使得组织和公司能够做出 硬件之上。它提供对应用程序数据的高吞吐量访问,适合于面向大 型数据集的应用程序。 在任何环境中,硬件故障都是不可避免的。有了 HDFS,你的 数据可以跨越数千台服务器,而每台服务器上均包含一部分基础数 据。这就是容错功能发挥作用的地方。现实情况是,这么多服务器 总会遇到一台或者多台无法正常工作的风险。HDFS 具备检测故障 和快速执行自动恢复的功能。 HDFS 的设计针对批处理做了优化,它提供高吞吐量的数据访 个两层的群集,其中资源管理器在顶层(每个群集中只有一个)。资 Hadoop 大数据解决方案 6 源管理器是主节点。它了解从节点所在的位置(较底层)以及它们拥 有多少资源。它运行了多种服务,其中最重要的是用于决定如何分 配资源的资源调度器。节点管理器(每个群集中有多个)是此基础设 施的从节点。当开始运行时,它向资源管理器声明自己。此类节点 有能力向群集提供资源,它的资源容量即内存和其他资源的数量。 在运行时0 码力 | 17 页 | 583.90 KB | 1 年前3 Hadoop 概述(RDBMS),但其仍能与 Oracle、MySQL 和 SQL Server 等系统一起 工作。这些系统都已经开发了用于对接 Hadoop 框架的连接组件。 我们将在本章介绍这些组件中的一部分,并且展示它们如何与 Hadoop 进行交互。 1.1 商业分析与大数据 商业分析通过统计和业务分析对数据进行研究。Hadoop 允许你 在其数据存储中进行业务分析。这些结果使得组织和公司能够做出 硬件之上。它提供对应用程序数据的高吞吐量访问,适合于面向大 型数据集的应用程序。 在任何环境中,硬件故障都是不可避免的。有了 HDFS,你的 数据可以跨越数千台服务器,而每台服务器上均包含一部分基础数 据。这就是容错功能发挥作用的地方。现实情况是,这么多服务器 总会遇到一台或者多台无法正常工作的风险。HDFS 具备检测故障 和快速执行自动恢复的功能。 HDFS 的设计针对批处理做了优化,它提供高吞吐量的数据访 个两层的群集,其中资源管理器在顶层(每个群集中只有一个)。资 Hadoop 大数据解决方案 6 源管理器是主节点。它了解从节点所在的位置(较底层)以及它们拥 有多少资源。它运行了多种服务,其中最重要的是用于决定如何分 配资源的资源调度器。节点管理器(每个群集中有多个)是此基础设 施的从节点。当开始运行时,它向资源管理器声明自己。此类节点 有能力向群集提供资源,它的资源容量即内存和其他资源的数量。 在运行时0 码力 | 17 页 | 583.90 KB | 1 年前3
 Hadoop 迁移到阿里云MaxCompute 技术方案12 续将提供兼容 ORC 的 Ali-ORC 存储格式 支持外表,将存储在 OSS 对象存储、OTS 表格存储的数 据映射为二维表 支持 Partition、Bucket 的分区、分桶存储 更底层不是 HDFS,是阿里自研的盘古文件系统,但可借 助 HDFS 理解对应的表之下文件的体系结构、任务并发 机制 使用时,存储与计算解耦,不需要仅仅为了存储扩大不必 要的计算资源 Alibaba Cloud MaxCompute 解决方案 20 5.1 阶段 1:调研评估&迁移方案 重点进行迁移前的评估分析,通过迁移工具对 Hadoop 平台的相关信息进行收集和诊断分 析,形成迁移分析报告,供决策者评估使用。 同时,根据诊断分析报告的内容,用户可以根据自身业务现状,制定迁移方案和计划。 5.2 阶段 2:试点/全面业务迁移 在确定开展迁移工作后,需要准备 例子: Alibaba Cloud MaxCompute 解决方案 29 【说明】:报告中对于 String 类型的 8M 限制的警告:不会截断该字段,但整个 SQL(表或分 区)的写入都会失败,因为 sql-checker 就会报错,不会走到 commit。 6.3.3.2 从 Dataworks 获得评估报告:  查看节点列表:Dataworks0 码力 | 59 页 | 4.33 MB | 1 年前3 Hadoop 迁移到阿里云MaxCompute 技术方案12 续将提供兼容 ORC 的 Ali-ORC 存储格式 支持外表,将存储在 OSS 对象存储、OTS 表格存储的数 据映射为二维表 支持 Partition、Bucket 的分区、分桶存储 更底层不是 HDFS,是阿里自研的盘古文件系统,但可借 助 HDFS 理解对应的表之下文件的体系结构、任务并发 机制 使用时,存储与计算解耦,不需要仅仅为了存储扩大不必 要的计算资源 Alibaba Cloud MaxCompute 解决方案 20 5.1 阶段 1:调研评估&迁移方案 重点进行迁移前的评估分析,通过迁移工具对 Hadoop 平台的相关信息进行收集和诊断分 析,形成迁移分析报告,供决策者评估使用。 同时,根据诊断分析报告的内容,用户可以根据自身业务现状,制定迁移方案和计划。 5.2 阶段 2:试点/全面业务迁移 在确定开展迁移工作后,需要准备 例子: Alibaba Cloud MaxCompute 解决方案 29 【说明】:报告中对于 String 类型的 8M 限制的警告:不会截断该字段,但整个 SQL(表或分 区)的写入都会失败,因为 sql-checker 就会报错,不会走到 commit。 6.3.3.2 从 Dataworks 获得评估报告:  查看节点列表:Dataworks0 码力 | 59 页 | 4.33 MB | 1 年前3
 尚硅谷大数据技术之Hadoop(生产调优手册)datanodes:最小可用 datanode 数量,默认 0 dfs.namenode.safemode.threshold-pct:副本数达到最小要求的 block 占系统总 block 数的 百分比,默认 0.999f。(只允许丢一个块) dfs.namenode.safemode.extension:稳定时间,默认值 30000 毫秒,即 30 秒 4)基本语法 集群处于安全模式 myhadoop.sh start (2)集群启动后,立即来到集群上删除数据,提示集群处于安全模式 6)案例 2:磁盘修复 需求:数据块损坏,进入安全模式,如何处理 ( 1 ) 分 别 进 入 hadoop102 、 hadoop103 、 hadoop104 的 /opt/module/hadoop- 3.1.3/data/dfs/data/current/BP-1015489500-192 –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网 问题。 如何发现慢磁盘? 正常在 HDFS 上创建一个目录,只需要不到 1s 的时间。如果你发现创建目录超过 1 分 钟及以上,而且这个现象并不是每次都有。只是偶尔慢了一下,就很有可能存在慢磁盘。 可以采用如下方法找出是哪块磁盘慢: 1)通过心跳未联系时间。 一般出现慢磁盘现象,会影响到 DataNode0 码力 | 41 页 | 2.32 MB | 1 年前3 尚硅谷大数据技术之Hadoop(生产调优手册)datanodes:最小可用 datanode 数量,默认 0 dfs.namenode.safemode.threshold-pct:副本数达到最小要求的 block 占系统总 block 数的 百分比,默认 0.999f。(只允许丢一个块) dfs.namenode.safemode.extension:稳定时间,默认值 30000 毫秒,即 30 秒 4)基本语法 集群处于安全模式 myhadoop.sh start (2)集群启动后,立即来到集群上删除数据,提示集群处于安全模式 6)案例 2:磁盘修复 需求:数据块损坏,进入安全模式,如何处理 ( 1 ) 分 别 进 入 hadoop102 、 hadoop103 、 hadoop104 的 /opt/module/hadoop- 3.1.3/data/dfs/data/current/BP-1015489500-192 –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网 问题。 如何发现慢磁盘? 正常在 HDFS 上创建一个目录,只需要不到 1s 的时间。如果你发现创建目录超过 1 分 钟及以上,而且这个现象并不是每次都有。只是偶尔慢了一下,就很有可能存在慢磁盘。 可以采用如下方法找出是哪块磁盘慢: 1)通过心跳未联系时间。 一般出现慢磁盘现象,会影响到 DataNode0 码力 | 41 页 | 2.32 MB | 1 年前3
 尚硅谷大数据技术之Hadoop(入门),以此为基础Doug Cutting等人用 了2年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。 7)2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。 8)2006 年 3 月份,Map-Reduce和Nutch Distributed File System (NDFS)分别被纳入到 Hadoop 项目 中,Had 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运 行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开 发专门的 MapReduce 应用,十分适合数据仓库的统计分析。 9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、 名字服务、分布式同步、组服务等。 1.7 推荐系统框架图 推荐系统项目框架 DataNode YARN NodeManager ResourceManager NodeManager NodeManager 2)配置文件说明 Hadoop 配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认 配置值时,才需要修改自定义配置文件,更改相应属性值。 (1)默认配置文件: 要获取的默认文件 文件存放在 Hadoop 的 jar0 码力 | 35 页 | 1.70 MB | 1 年前3 尚硅谷大数据技术之Hadoop(入门),以此为基础Doug Cutting等人用 了2年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。 7)2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。 8)2006 年 3 月份,Map-Reduce和Nutch Distributed File System (NDFS)分别被纳入到 Hadoop 项目 中,Had 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运 行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开 发专门的 MapReduce 应用,十分适合数据仓库的统计分析。 9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、 名字服务、分布式同步、组服务等。 1.7 推荐系统框架图 推荐系统项目框架 DataNode YARN NodeManager ResourceManager NodeManager NodeManager 2)配置文件说明 Hadoop 配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认 配置值时,才需要修改自定义配置文件,更改相应属性值。 (1)默认配置文件: 要获取的默认文件 文件存放在 Hadoop 的 jar0 码力 | 35 页 | 1.70 MB | 1 年前3
 Spark 简介以及与 Hadoop 的对比来解决数据容错的高效性。Narrow Dependencies 是指父 RDD 的每一个分区最多被一个子 RDD 的分区所用,表现为一个父 RDD 的分区对应于一个子 RDD 的分区或多个父 RDD 的分 区对应于一个子 RDD 的分区,也就是说一个父 RDD 的一个分区不可能对应一个子 RDD 的 多个分区。Wide Dependencies 是指子 RDD 的分区依赖于父 RDD 的多个分区或所有分区,0 码力 | 3 页 | 172.14 KB | 1 年前3 Spark 简介以及与 Hadoop 的对比来解决数据容错的高效性。Narrow Dependencies 是指父 RDD 的每一个分区最多被一个子 RDD 的分区所用,表现为一个父 RDD 的分区对应于一个子 RDD 的分区或多个父 RDD 的分 区对应于一个子 RDD 的分区,也就是说一个父 RDD 的一个分区不可能对应一个子 RDD 的 多个分区。Wide Dependencies 是指子 RDD 的分区依赖于父 RDD 的多个分区或所有分区,0 码力 | 3 页 | 172.14 KB | 1 年前3
 银河麒麟服务器操作系统V4 Hadoop 软件适配手册节点的状态;App Master 和 Container 是运行在 Slave 上的组件,Container 是 yarn 中分配资源的一个单位,包涵内存、CPU 等等资源,yarn 以 Container 为单位分 配资源。 Client 向 ResourceManager 提交的每一个应用程序都必须有一个 Application Master,它经过 ResourceManager 分配资源后,运行于某一个0 码力 | 8 页 | 313.35 KB | 1 年前3 银河麒麟服务器操作系统V4 Hadoop 软件适配手册节点的状态;App Master 和 Container 是运行在 Slave 上的组件,Container 是 yarn 中分配资源的一个单位,包涵内存、CPU 等等资源,yarn 以 Container 为单位分 配资源。 Client 向 ResourceManager 提交的每一个应用程序都必须有一个 Application Master,它经过 ResourceManager 分配资源后,运行于某一个0 码力 | 8 页 | 313.35 KB | 1 年前3
 通过Oracle 并行处理集成 Hadoop 数据取对业务用户有价值的信息。 本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群里的数据。请注 意,本文选择了 Hadoop 和 HDFS 作为示例,但这里的策略同样适用于其他分 布式存储机制。本文中介绍了各种访问方法,还通过一个具体示例说明了其中一 种访问方法的实现。 2 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据0 码力 | 21 页 | 1.03 MB | 1 年前3 通过Oracle 并行处理集成 Hadoop 数据取对业务用户有价值的信息。 本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群里的数据。请注 意,本文选择了 Hadoop 和 HDFS 作为示例,但这里的策略同样适用于其他分 布式存储机制。本文中介绍了各种访问方法,还通过一个具体示例说明了其中一 种访问方法的实现。 2 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据0 码力 | 21 页 | 1.03 MB | 1 年前3
共 9 条
- 1













