系统构建 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

银河麒麟服务器操作系统 V4 Hadoop 软件适配手册天津麒麟信息技术有限公司 2019 年 5 月银河麒麟服务器操作系统 V4 hadoop 软件适配手册 I 目录目录 ............................................................................. .......................................................................................... 2 1.1 系统概述 ................................................................................................ ........... 7 银河麒麟服务器操作系统 V4 hadoop 软件适配手册 2 1 概述 1.1 系统概述银河麒麟服务器操作系统主要面向军队综合电子信息系统、金融系统以及电力系统等国家关键行业的服务器应用领域，突出高安全性、高可用性、高效数据处理、虚拟化等关键技术优势，针对关键业务构建的丰富高效、安全可靠的功能特性，兼容适配长城、联想、浪

0 码力 | 8 页 | 313.35 KB | 1 年前
3
大数据集成与Hadoop - IBM

大数据集成与 Hadoop 源数据转换净化丰富 EDW 连续单处理器 SMP系统 MPP群集系统或GRID 4 路并行 64 路并行 CPU CPU CPU CPU CPU 内存共享内存磁盘磁盘关键成功因素：大数据集成平台必须支持全部三个维度的可扩展性 • 线性数据可扩展性：硬件和软件系统通过线性增加硬件资源来线性提高处理吞吐量。例如，如果在50个处理器上运行4 程序可以实现线性数据可扩展性。 • 应用程序纵向扩展：衡量软件在一个对称多处理器 (SMP) 系统中的多个处理器间实现线性数据可扩展性的有效程度。 • 应用程序横向扩展：确定软件在非共享架构的多个 SMP 节点间实现线性数据可扩展性的有效程度。图1. 海量数据可扩展性是一项大数据集成的强制要求。在大数据时代，企业必须支持MPP群集系统才能实现扩展。支持海量数据可扩展性的需求并非只与Hadoop基础架构的出单一应用程序（对每个数据分区执行相同的应用程序逻辑）。使用软件数据流来实施项目软件数据流通过简化在一个或多个节点实施和执行数据管道和数据分区的过程，从而充分利用非共享架构。软件数据流还可以将构建和优化多位用户运行的并行应用程序的复杂问题隐藏起来。利用数据分区实现线性数据可扩展性大数据集分散在多个独立节点间，单个作业对所有分区数据执行相同的应用程序逻辑。形成设计隔离的环境

0 码力 | 16 页 | 1.23 MB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

1 概要 Hadoop 在企业构建第一代大数据平台中成为主流的技术框架，但是随着企业信息化的高速发展，在数字化、智能化的转型过程中，Hadoop 越来越复杂的技术架构和运维成本、平台的稳定性和安全性、资源的弹性伸缩能力都遇到了瓶颈，严重阻碍了客户数据业务的发展。随着云计算技术的发展和普及，越来越多的企业客户选择数据上云，在云上构建数据仓库。以云数仓、云计算为核心的企业服度安全和稳定性，让客户的资源更加聚焦在业务开发上，加速业务发展。本文所描述的解决方案主要解决 Hadoop 客户如何快速、平滑的迁移到 MaxComute 大数据生态，快速完成数据和业务的迁移以及生态系统的对接。 Alibaba Cloud MaxCompute 解决方案 7 2 阿里云大数据与开源生态对比 2.1 Hadoop 及开源生态与阿里云大数据生态对比映射（仅作为对功能定位的映射，不代表对应组件可无缝迁移），以便读者对相关服务的迁移至阿里云大数据产品服务有更好的理解。组件分类 Hadoop 开源组件阿里云产品/产品组件数据存储 HDFS 文件系统对象存储 MaxCompute 存储(仅开放表数据存储) OSS 对象存储 EMR HDFS 批处理 Hadoop MapReduce Hive Spark MaxCompute

0 码力 | 59 页 | 4.33 MB | 1 年前
3
大数据时代的Intel之Hadoop

大数据时代的Intel乊Hadoop 系统方案架构师：朱海峰英特尔®中国于计算创新中心 2013.4 北京法律声明本文所提供乊信息均不英特尔® 产品相关。本文丌代表英特尔公司戒其它机构向仸何人明确戒隐含地授予仸何知识产权。除相关产品的英特尔销售条款不条件中列明乊担保条件以外，英特尔公司丌对销售和/戒使用英特尔产品做出其它仸何明确戒隐含的担保，包括对适用亍特定用途、适销 com/design/literature.htm 性能测试和等级评定均使用特定的计算机系统和/戒组件迚行测量，这些测试大致反映了英特尔® 产品的性能。系统硬件、软件设计戒配置的仸何差异都可能影响实际性能。购买者应迚行多方咨询，以评估其考虑购买的系统戒组件的性能。如欲了解有关性能测试和英特尔产品性能的更多信息，请访问:英特尔性能挃标评测局限此处涉及的所有产品、计算机系统、日期和数字信息均为依据当前期望得出的初步结果，可随时更改，恕丌另行通知。芯片组、网络硬件和软件。系统必须接通电源幵建立网络连接。就笔记本电脑而言，英特尔主劢管理技术可能在基亍主机操作系统的虚拟与用网（VPN）上，戒者在无线连接、使用电池电源、睡眠、休眠戒关机时无法使用戒是某些功能受到限制。如欲了解更多信息，请访问：httP： //www.intel.com/technology/iamt。英特尔® 架构上的 64 位计算要求计算机系统采用支持英特尔® 64 架

0 码力 | 36 页 | 2.50 MB | 1 年前
3
Hadoop 概述

Hadoop 概述本章内容提要 ● Hadoop 的组件 ● HDFS、MapReduce、YARN、ZooKeeper 和 Hive 的角色 ● Hadoop 与其他系统的集成 ● 数据集成与 Hadoop Hadoop 是一种用于管理大数据的基本工具。这种工具满足了企业在大型数据库(在 Hadoop 中亦称为数据湖)管理方面日益增长的需求。当需求。当涉及数据时，企业中最大的需求便是可扩展能力。科技和商业促使各种组织收集越来越多的数据，而这也增加了高效管理这些数据的需求。本章探讨 Hadoop Stack，以及所有可与 Hadoop 一起使用的相关组件。在构建 Hadoop Stack 的过程中，每个组件都在平台中扮演着重要角色。软件栈始于 Hadoop Common 中所包含的基础组件。Hadoop 1 第章 Hadoop 。而众所周知的文件系统，Hadoop 分布式文件系统，或者说 HDFS，则是 Hadoop 的核心，然而它并不会威胁到你的预算。如果要分析一组数据，你可以使用 MapReduce 中包含的编程逻辑，它提供了在 Hadoop 群集上横跨多台服务器的可扩展性。为实现资源管理，可考虑将 Hadoop YARN 加入到软件栈中，它是面向大数据应用程序的分布式操作系统。 ZooKeeper

0 码力 | 17 页 | 583.90 KB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

（作者：尚硅谷大数据研发部）版本：V3.3 第 1 章 Hadoop 概述 1.1 Hadoop 是什么 Hadoop是什么 1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2）主要解决，海量数据的存储和海量数据的分析计算问题。 3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 1.2 Hadoop 发展历史（了解）（3）Hortonworks 的主打产品是 Hortonworks Data Platform（HDP），也同样是 100%开源的产品，HDP 除常见的项目外还包括了 Ambari，一款开源的安装和管理系统。（4）2018 年 Hortonworks 目前已经被 Cloudera 公司收购。尚硅谷大数据技术之 Hadoop（入门） —— Distributed File System，简称 HDFS，是一个分布式文件系统。 HDFS架构概述 1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。 2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。 3）Secondary NameNod

0 码力 | 35 页 | 1.70 MB | 1 年前
3
通过Oracle 并行处理集成 Hadoop 数据

1 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据引言许多垂直行业都在关注文件系统中庞大的数据。这些数据中通常包含大量无关的明细信息，以及部分可用于趋势分析或丰富其他数据的精华信息。尽管这些数据存储在数据库之外，但一些客户仍然希望将其与数据库中的数据整合在一起以提取对业务用户有价值的信息。要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据，最简单的方法莫过于使用外部表。请参阅这里了解外部表。外部表以表的形式展示存储在文件系统中的数据，并且可在 SQL 查询中完全透明地使用。因此，可以考虑用外部表从 Oracle 数据库中直接访问 HDFS（Hadoop 文件系统）中存储的数据。遗憾的是，常规的操作系统无法调用外部表驱动直接访问 HDFS 文件。FUSE（File 文件。FUSE（File System in Userspace）项目针对这种情况提供了解决方法。有多种 FUSE 驱动程序支持用户挂载 HDFS 存储，并将其作为常规文件系统处理。通过使用一个此类驱动程序，并在数据库实例上挂载 HDFS（如果是 RAC 数据库，则在其所有实例上挂载 HDFS），即可使用外部表基础架构轻松访问 HDFS 文件。图 1. 用数据库内置的

0 码力 | 21 页 | 1.03 MB | 1 年前
3
Hadoop开发指南

Hadoop开发指南开发指南注解：本例中所运⾏脚本需在CentOS操作系统上，其他操作系统请修改脚本后再尝试执⾏。 1. 在在UHost上安装上安装Hadoop客户端客户端出于安全性考虑，⼀般建议⽤⼾在⾮UHadoop集群机器上安装客⼾端进⾏任务提交与相关操作 1.1 控制台安装控制台安装可通过控制台⼀键安装，参考：客⼾端安装。 1.2 ⾃⾏安装⾃⾏安装针对部分存 b:$LD_LIBRARY_PATH 让环境⽣效 source /etc/profile或者 source ~/.bashrc 2. HDFS HDFS是⼀个⾼度容错性和⾼吞吐量的分布式⽂件系统。它被设计的易于扩展也易于使⽤，适合海量⽂件的存储。 2.1 HDFS基础操作基础操作查询⽂件 Usage: hadoop fs [generic options] -ls [-d] [-h] [replication-factor] [targetDir] ⽰例：修改HDFS 根⽬录下⽂件副本数量为2，hdfs dfs -setrep -R 2 / 2.5.4 查看查看HDFS⽂件系统状态⽂件系统状态 Hadoop开发指南 Copyright © 2012-2021 UCloud 优刻得 11/12 hadoop fsck / 返回结果⽰例如下： Total size: 455660769497

0 码力 | 12 页 | 135.94 KB | 1 年前
3
Hadoop 3.0以及未来

Hive Cloudera创立 Hortonworks创立 Hadoop 1.0发布 Hadoop 2.0 GA Spark成为顶级顷目 Hadoop 3.0 2017 Hadoop生态系统文件存储层 HDFS 资源／任务调度 YARN 计算引擎MapReduce 计算引擎Spark NoSQL HBase 数据仓库SQL 机器/深度学习 Batch 任务流处理搜索 XOR(6个数据单元) 1 86% RS(6,3) 3 67% RS(10,4) 4 71% 存储布局－连续和条状小文件处理并行IO 数据本地性数据本地性小文件处理纠错码在分布式存储系统中 HDFS 性能多个Standby Namenode Active NN Standby NN Standby NN DN DN DN DN Journal Node Journal Journal Node Journal Node Write edit logs Read edit logs Block reports HDFS-6440 云计算－存储虚拟化 Hadoop 文件系统API SQL, 机器学习, 流处理, Batch… Hadoop 3介绍 • Common • HDFS • YARN  YARN Timeline Service v.2  YARN

0 码力 | 33 页 | 841.56 KB | 1 年前
3
Spark 简介以及与 Hadoop 的对比

(如：count, collect, save 等)，Actions 操作会返回结果或把 RDD 数据写到存储系统中。Actions 是触发 Spark 启动计算的动因。 1.2.3 血统（Lineage）利用内存加快数据加载,在众多的其它的 In-Memory 类数据库或 Cache 类系统中也有实现，Spark 的主要区别在于它处理分布式运算环境下的数据容错性（节点实效/数据丢失）问题时采用的方案。为了保证 RDD 中数据的鲁棒性，RDD 数据集通过所谓的血统关系(Lineage) 记住了它是如何从其它 RDD 中演变过来的。相比其它系统的细颗粒度的内存数据更新级别的备份或者 LOG 机制，RDD 的 Lineage 记录的是粗颗粒度的特定数据转换（Transformation）操作（filter, map, join etc.)行为。当这个 RDD 的部分分区数据丢失时，它可以通过

0 码力 | 3 页 | 172.14 KB | 1 年前
3

共 12 条前往

页

分类

语言

格式

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

大数据集成与Hadoop - IBM

Hadoop 迁移到阿里云MaxCompute 技术方案

大数据时代的Intel之Hadoop

Hadoop 概述

尚硅谷大数据技术之Hadoop（入门）

通过Oracle 并行处理集成 Hadoop 数据

Hadoop开发指南

Hadoop 3.0以及未来

Spark 简介以及与 Hadoop 的对比