高性能消息系统 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

银河麒麟服务器操作系统 V4 Hadoop 软件适配手册天津麒麟信息技术有限公司 2019 年 5 月银河麒麟服务器操作系统 V4 hadoop 软件适配手册 I 目录目录 ............................................................................. .......................................................................................... 2 1.1 系统概述 ................................................................................................ ....................................... 7 银河麒麟服务器操作系统 V4 hadoop 软件适配手册 2 1 概述 1.1 系统概述银河麒麟服务器操作系统主要面向军队综合电子信息系统、金融系统以及电力系统等国家关键行业的服务器应用领域，突出高安全性、高可用性、高效数据处理、虚拟化等关键技术优势，针对关键业务构建的丰富高效、安全可靠的功能

0 码力 | 8 页 | 313.35 KB | 1 年前
3
Hadoop 概述

Hadoop 概述本章内容提要 ● Hadoop 的组件 ● HDFS、MapReduce、YARN、ZooKeeper 和 Hive 的角色 ● Hadoop 与其他系统的集成 ● 数据集成与 Hadoop Hadoop 是一种用于管理大数据的基本工具。这种工具满足了企业在大型数据库(在 Hadoop 中亦称为数据湖)管理方面日益增长的需求。当。而众所周知的文件系统，Hadoop 分布式文件系统，或者说 HDFS，则是 Hadoop 的核心，然而它并不会威胁到你的预算。如果要分析一组数据，你可以使用 MapReduce 中包含的编程逻辑，它提供了在 Hadoop 群集上横跨多台服务器的可扩展性。为实现资源管理，可考虑将 Hadoop YARN 加入到软件栈中，它是面向大数据应用程序的分布式操作系统。 ZooKeeper 每个 znode 都由一个路径来标识，路径元素由斜杠(/)分隔。还有其他一些系统能与 Hadoop 进行集成并从其基础架构中受益。虽然 Hadoop 并不被认为是一种关系型数据库管理系统 (RDBMS)，但其仍能与 Oracle、MySQL 和 SQL Server 等系统一起工作。这些系统都已经开发了用于对接 Hadoop 框架的连接组件。我们将在本章介绍这些组件中的一部分，并且展示它们如何与

0 码力 | 17 页 | 583.90 KB | 1 年前
3
大数据集成与Hadoop - IBM

与现实之间存在巨大的反差，这在大数据集成方面表现尤为突出。很多业界传言称，任何不可扩展的抽取、转换和加载 (ETL) 工具搭配Hadoop后都会得到高性能、高度可扩展的数据集成平台。事实上，MapReduce的设计宗旨并非是对海量数据进行高性能处理，而是为了实现细粒度的容错。这种差异可能会使整体性能和有效性降低一个数量级乃至更多。 Hadoop Yet Another Resource 大数据集成与 Hadoop 源数据转换净化丰富 EDW 连续单处理器 SMP系统 MPP群集系统或GRID 4 路并行 64 路并行 CPU CPU CPU CPU CPU 内存共享内存磁盘磁盘关键成功因素：大数据集成平台必须支持全部三个维度的可扩展性 • 线性数据可扩展性：硬件和软件系统通过线性增加硬件资源来线性提高处理吞吐量。例如，如果在50个处理器上运行4 程序可以实现线性数据可扩展性。 • 应用程序纵向扩展：衡量软件在一个对称多处理器 (SMP) 系统中的多个处理器间实现线性数据可扩展性的有效程度。 • 应用程序横向扩展：确定软件在非共享架构的多个 SMP 节点间实现线性数据可扩展性的有效程度。图1. 海量数据可扩展性是一项大数据集成的强制要求。在大数据时代，企业必须支持MPP群集系统才能实现扩展。支持海量数据可扩展性的需求并非只与Hadoop基础架构的出

0 码力 | 16 页 | 1.23 MB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

度安全和稳定性，让客户的资源更加聚焦在业务开发上，加速业务发展。本文所描述的解决方案主要解决 Hadoop 客户如何快速、平滑的迁移到 MaxComute 大数据生态，快速完成数据和业务的迁移以及生态系统的对接。 Alibaba Cloud MaxCompute 解决方案 7 2 阿里云大数据与开源生态对比 2.1 Hadoop 及开源生态与阿里云大数据生态对比建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构的逻辑组件关系如下图所示：这些逻辑组件包括：  数据源：数据源包括关系型数据库、日志文件、实时消息等。  数据存储：面向海量数据存储的分布式文件存储服务，支持结构化数据和非结构数据数据存储，我们也常称之为数据湖。如 HDFS、对象存储服务等。  批处理：由于大数据场景必须处数据对象供后续使用。如 Hive、 MapReduce、Spark 等。 Alibaba Cloud MaxCompute 解决方案 8  实时消息采集：用于实时数据采集，可扩展、高吞吐、可靠的消息服务。如 Kafka。  流处理：对实时数据进行低延迟流式计算的服务。如 Flink、Spark Streaming、Storm 等。  机器学习：满足机器学习工作负载的服务。如当前流行的

0 码力 | 59 页 | 4.33 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

（作者：尚硅谷大数据研发部）版本：V3.3 第 1 章 Hadoop 概述 1.1 Hadoop 是什么 Hadoop是什么 1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2）主要解决，海量数据的存储和海量数据的分析计算问题。 3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 1.2 Hadoop 发展历史（了解）（3）Hortonworks 的主打产品是 Hortonworks Data Platform（HDP），也同样是 100%开源的产品，HDP 除常见的项目外还包括了 Ambari，一款开源的安装和管理系统。（4）2018 年 Hortonworks 目前已经被 Cloudera 公司收购。尚硅谷大数据技术之 Hadoop（入门） —— Distributed File System，简称 HDFS，是一个分布式文件系统。 HDFS架构概述 1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。 2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。 3）Secondary NameNod

0 码力 | 35 页 | 1.70 MB | 1 年前
3
大数据时代的Intel之Hadoop

大数据时代的Intel乊Hadoop 系统方案架构师：朱海峰英特尔®中国于计算创新中心 2013.4 北京法律声明本文所提供乊信息均不英特尔® 产品相关。本文丌代表英特尔公司戒其它机构向仸何人明确戒隐含地授予仸何知识产权。除相关产品的英特尔销售条款不条件中列明乊担保条件以外，英特尔公司丌对销售和/戒使用英特尔产品做出其它仸何明确戒隐含的担保，包括对适用亍特定用途、适销 com/design/literature.htm 性能测试和等级评定均使用特定的计算机系统和/戒组件迚行测量，这些测试大致反映了英特尔® 产品的性能。系统硬件、软件设计戒配置的仸何差异都可能影响实际性能。购买者应迚行多方咨询，以评估其考虑购买的系统戒组件的性能。如欲了解有关性能测试和英特尔产品性能的更多信息，请访问:英特尔性能挃标评测局限此处涉及的所有产品、计算机系统、日期和数字信息均为依据当前期望得出的初步结果，可随时更改，恕丌另行通知。芯片组、网络硬件和软件。系统必须接通电源幵建立网络连接。就笔记本电脑而言，英特尔主劢管理技术可能在基亍主机操作系统的虚拟与用网（VPN）上，戒者在无线连接、使用电池电源、睡眠、休眠戒关机时无法使用戒是某些功能受到限制。如欲了解更多信息，请访问：httP： //www.intel.com/technology/iamt。英特尔® 架构上的 64 位计算要求计算机系统采用支持英特尔® 64 架

0 码力 | 36 页 | 2.50 MB | 1 年前
3
通过Oracle 并行处理集成 Hadoop 数据

1 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据引言许多垂直行业都在关注文件系统中庞大的数据。这些数据中通常包含大量无关的明细信息，以及部分可用于趋势分析或丰富其他数据的精华信息。尽管这些数据存储在数据库之外，但一些客户仍然希望将其与数据库中的数据整合在一起以提取对业务用户有价值的信息。要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据，最简单的方法莫过于使用外部表。请参阅这里了解外部表。外部表以表的形式展示存储在文件系统中的数据，并且可在 SQL 查询中完全透明地使用。因此，可以考虑用外部表从 Oracle 数据库中直接访问 HDFS（Hadoop 文件系统）中存储的数据。遗憾的是，常规的操作系统无法调用外部表驱动直接访问 HDFS 文件。FUSE（File 文件。FUSE（File System in Userspace）项目针对这种情况提供了解决方法。有多种 FUSE 驱动程序支持用户挂载 HDFS 存储，并将其作为常规文件系统处理。通过使用一个此类驱动程序，并在数据库实例上挂载 HDFS（如果是 RAC 数据库，则在其所有实例上挂载 HDFS），即可使用外部表基础架构轻松访问 HDFS 文件。图 1. 用数据库内置的

0 码力 | 21 页 | 1.03 MB | 1 年前
3
Hadoop 3.0以及未来

Hive Cloudera创立 Hortonworks创立 Hadoop 1.0发布 Hadoop 2.0 GA Spark成为顶级顷目 Hadoop 3.0 2017 Hadoop生态系统文件存储层 HDFS 资源／任务调度 YARN 计算引擎MapReduce 计算引擎Spark NoSQL HBase 数据仓库SQL 机器/深度学习 Batch 任务流处理搜索 XOR(6个数据单元) 1 86% RS(6,3) 3 67% RS(10,4) 4 71% 存储布局－连续和条状小文件处理并行IO 数据本地性数据本地性小文件处理纠错码在分布式存储系统中 HDFS 性能多个Standby Namenode Active NN Standby NN Standby NN DN DN DN DN Journal Node Journal Journal Node Journal Node Write edit logs Read edit logs Block reports HDFS-6440 云计算－存储虚拟化 Hadoop 文件系统API SQL, 机器学习, 流处理, Batch… Hadoop 3介绍 • Common • HDFS • YARN  YARN Timeline Service v.2  YARN

0 码力 | 33 页 | 841.56 KB | 1 年前
3
Hadoop开发指南

Hadoop开发指南开发指南注解：本例中所运⾏脚本需在CentOS操作系统上，其他操作系统请修改脚本后再尝试执⾏。 1. 在在UHost上安装上安装Hadoop客户端客户端出于安全性考虑，⼀般建议⽤⼾在⾮UHadoop集群机器上安装客⼾端进⾏任务提交与相关操作 1.1 控制台安装控制台安装可通过控制台⼀键安装，参考：客⼾端安装。 1.2 ⾃⾏安装⾃⾏安装针对部分存 b:$LD_LIBRARY_PATH 让环境⽣效 source /etc/profile或者 source ~/.bashrc 2. HDFS HDFS是⼀个⾼度容错性和⾼吞吐量的分布式⽂件系统。它被设计的易于扩展也易于使⽤，适合海量⽂件的存储。 2.1 HDFS基础操作基础操作查询⽂件 Usage: hadoop fs [generic options] -ls [-d] [-h] [replication-factor] [targetDir] ⽰例：修改HDFS 根⽬录下⽂件副本数量为2，hdfs dfs -setrep -R 2 / 2.5.4 查看查看HDFS⽂件系统状态⽂件系统状态 Hadoop开发指南 Copyright © 2012-2021 UCloud 优刻得 11/12 hadoop fsck / 返回结果⽰例如下： Total size: 455660769497

0 码力 | 12 页 | 135.94 KB | 1 年前
3
Spark 简介以及与 Hadoop 的对比

(如：count, collect, save 等)，Actions 操作会返回结果或把 RDD 数据写到存储系统中。Actions 是触发 Spark 启动计算的动因。 1.2.3 血统（Lineage）利用内存加快数据加载,在众多的其它的 In-Memory 类数据库或 Cache 类系统中也有实现，Spark 的主要区别在于它处理分布式运算环境下的数据容错性（节点实效/数据丢失）问题时采用的方案。为了保证 RDD 中数据的鲁棒性，RDD 数据集通过所谓的血统关系(Lineage) 记住了它是如何从其它 RDD 中演变过来的。相比其它系统的细颗粒度的内存数据更新级别的备份或者 LOG 机制，RDD 的 Lineage 记录的是粗颗粒度的特定数据转换（Transformation）操作（filter, map, join etc.)行为。当这个 RDD 的部分分区数据丢失时，它可以通过

0 码力 | 3 页 | 172.14 KB | 1 年前
3

共 12 条前往

页

分类

语言

格式

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

Hadoop 概述

大数据集成与Hadoop - IBM

Hadoop 迁移到阿里云MaxCompute 技术方案

尚硅谷大数据技术之Hadoop（入门）

大数据时代的Intel之Hadoop

通过Oracle 并行处理集成 Hadoop 数据

Hadoop 3.0以及未来

Hadoop开发指南

Spark 简介以及与 Hadoop 的对比