尚硅谷大数据技术之Hadoop(入门)1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2)主要解决,海量数据的存储和海量数据的分析计算问题。 3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 1.2 Hadoop 发展历史(了解) Hadoop发展历史 1)Hadoop创始人Doug Cutting,为了实现与Google类似的全文搜索功能,他在Lucene框架基础上进行优 avi yangge.avi DataNode ss1505_wuma.a vi Container MapTask SecondaryNa meNode 1.6 大数据技术生态体系 大数据技术生态体系 数据库(结构化数据) 文件日志(半结构化数据) 视频、ppt等(非结构化数据) Sqoop数据传递 Flume日志收集 Kafka消息队列 HDFS文件存储 HBase非关系型数据库 Oozie任务调度 Azkaban任务调度 业务模型、数据可视化、业务应用 Z o o k e e p e r 数 据 平 台 配 置 和 调 度 数据来源层 数据传输层 数据存储层 资源管理层 数据计算层 任务调度层 业务模型层 Storm实时计算 Flink 图中涉及的技术名词解释如下: 1)Sqoop:Sqoop 是一款开源的工具,主要用于在 Hadoop、Hive0 码力 | 35 页 | 1.70 MB | 1 年前3
Hadoop 概述YARN 的组件已经可 用于进一步管理 Hadoop 生态系统。 1.1.4 YARN 是什么 YARN 基础设施(另一个资源协调器)是一项用于提供执行应用 程序所需的计算资源(内存、CPU 等)的框架。 YARN 有什么诱人的特点或是性质?其中两个重要的部分是资 源管理器和节点管理器。让我们来勾勒 YARN 的框架。首先考虑一 个两层的群集,其中资源管理器在顶层(每个群集中只有一个)。资 功能。我们建议全面检查你的系统需求,以避免沮丧和失望。Hadoop 生态系统会将所有新技术带入到你的系统中。 1.4.1 Hadoop 生态系统 Apache 将他们的集成称作生态系统。字典中将生态系统定义 为:生物与它们所处环境的非生物组成部分(如空气、水、土壤和矿 产)作为一个系统进行交互的共同体。基于技术的生态系统也有类似 的属性。它是产品平台的结合,由平台拥有者所开发的核心组件所 的开放源码和企业生态系 统还在不断成长。HDFS是该生态系统的主要组成部分。由于Hadoop 有着低廉的商业成本,因此很容易去探索 Hadoop 的特性,无论是 通过虚拟机,还是在现有环境建立混合生态系统。使用 Hadoop 解 决方案来审查当前的数据方法以及日渐增长的供应商阵营是一种非 Hadoop 大数据解决方案 10 常好的方法。借助这些服务和工具,Hadoop 生态系统将继续发展,0 码力 | 17 页 | 583.90 KB | 1 年前3
Hadoop 3.0以及未来Hive Cloudera创立 Hortonworks创立 Hadoop 1.0发布 Hadoop 2.0 GA Spark成为顶级顷目 Hadoop 3.0 2017 Hadoop生态系统 文件存储层 HDFS 资源/任务调度 YARN 计算引擎MapReduce 计算引擎Spark NoSQL HBase 数据仓 库SQL 机器/深 度学习 Batch 任务 流处理 搜索 …0 码力 | 33 页 | 841.56 KB | 1 年前3
Hadoop 迁移到阿里云MaxCompute 技术方案........ 6 2 阿里云大数据与开源生态对比 .................................................................................................................. 7 2.1 Hadoop 及开源生态与阿里云大数据生态对比 ...................... ........................................................................ 9 2.1.4 阿里云大数据与 Hadoop 生态的产品映射 ......................................................................... 9 2.2 MaxCompute MaxComute 大数 据生态,快速完成数据和业务的迁移以及生态系统的对接。 Alibaba Cloud MaxCompute 解决方案 7 2 阿里云大数据与开源生态对比 2.1 Hadoop 及开源生态与阿里云大数据生态对比 2.1.1 主流大数据体系架构 Hadoop 及开源生态由一系列的开源组件共同组成,很多用户基于0 码力 | 59 页 | 4.33 MB | 1 年前3
通过Oracle 并行处理集成 Hadoop 数据Oracle 表中,之后才能在 SQL 查询中访问这些数据的过程。 甲骨文(中国)软件系统有限公司 北京远洋光华中心办公室 地址:北京市朝阳区景华南街5号远洋光华中心C座21层 邮编:100020 电话:(86.10) 6535-6688 传真:(86.10) 6515-1015 北京上地6号办公室 地址:北京市海淀区上地信息产业基地,上地西路8号,上地六号大厦D座702室 室 邮编:100085 电话:(86.10) 8278-7300 传真:(86.10) 8278-7373 上海分公司 地址:上海市黄浦区天津路155号名人商业大厦12层 邮编:200021 电话:(86.21) 2302-3000 传真:(86.21) 6340-6055 广州分公司 地址:广州市天河区珠江新城华夏路8号合景国际金融广场18楼 邮编:510623 电话:(86.20) 8513-2000 传真:(86.20) 8513-2380 成都分公司(川信大厦办公室) 地址:成都市人民南路二段18号四川川信大厦20层A&D座 邮编:610016 电话:(86.28) 8619-7200 传真:(86.28) 8619-9573 成都分公司(高新国际广场办公室) 地址:成都市高新区天韵0 码力 | 21 页 | 1.03 MB | 1 年前3
共 5 条
- 1













