快速迭代 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Spark 简介以及与 Hadoop 的对比

MapReduce 所具有的优点；但不同于 MapReduce 的是 Job 中间输出和结果可以保存在内存中，从而不再需要读写 HDFS，因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 map reduce 的算法。 1.2 Spark 核心概念 1.2.1 弹性分布数据集（RDD） RDD 是 Spark 的最基本抽象,是对分布式内存的抽象使用，实现了以操作本地集合的方式列化的。RDD 可以 cache 到内存中，每次对 RDD 数据集的操作之后的结果，都可以存放到内存中，下一个操作可以直接从内存中输入，省去了 MapReduce 大量的磁盘 IO 操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说，效率提升比较大。 1.2.2 RDD 的转换与操作对于 RDD 可以有两种计算方式：转换（返回值还是一个 RDD）与操作（返回值不是一个 RDD）的转换（transformations）也就是记录每个 RDD 的 lineage（血统）来重新计算生成丢失的分区数据。 2 Spark 与 Hadoop 对比 2.1 快速 Spark 的中间数据放到内存中，对于迭代运算效率更高。Spark 更适合于迭代运算比较多的 ML 和 DM 运算。因为在 Spark 里面，有 RDD 的抽象概念。 2.2 灵活 1. Spark 提供的数据集操作类型有很多种，不像

0 码力 | 3 页 | 172.14 KB | 1 年前
3
Hadoop 概述

HDFS，你的数据可以跨越数千台服务器，而每台服务器上均包含一部分基础数据。这就是容错功能发挥作用的地方。现实情况是，这么多服务器总会遇到一台或者多台无法正常工作的风险。HDFS 具备检测故障和快速执行自动恢复的功能。 HDFS 的设计针对批处理做了优化，它提供高吞吐量的数据访问，而非低延迟的数据访问。运行在 HDFS 上的应用程序有着大型数据集。在 HDFS 中一个典型的文件大小可以达到数百公司为其旗舰数据库引擎和 Hadoop 开发了一款软件。这是一个实用工具的集合，协助集成 Oracle 的服务与 Hadoop Stack。大数据连接器套件是一个工具集，提供深入分析和发现信息的能力，并能快速集成基础设施中存储的所有数据。所有工具均是可扩展的，如果你已经是或者未来将会成为 Oracle 的客户，那么这将很好地适配于你的环境。Oracle 公司的套件中有很多工具，但我们在本章中只会讲述其中的一部分。 Kerberos 认证直接加载到 In-Memory 表图 1-9 Hadoop 大数据解决方案 16 Oracle R Connector for Hadoop 能够快速开发，并通过模拟并行的支持，在用户桌面对并行 R 代码使用 R 语言风格的调试功能(见图 1-10)。此连接器允许分析师将来自多种环境(客户桌面、HDFS、 Hive、Oracle 数据库和内存中的

0 码力 | 17 页 | 583.90 KB | 1 年前
3
大数据时代的Intel之Hadoop

半结构化，非结构化，多维数据 ―大数据‖ 挃数据集的大小超过了现有典型的数据库软件和工具的处理能力。不此同时，及时捕捉、存储、聚合、管理这些大数据以及对数据的深度分析的新技术和新能力，正在快速增长，就像预测计算芯片增长速度的摩尔定律一样。 — McKinsey Global Institute 统计和报表价值数据挖掘和预测性分析大数据时代的Intel • 机劢车的迅速增加 • 复杂数据分析 • 数据挖掘不预测 • 突发事件应对 • 公众服务 • 公众访问高幵发 • 其他系统亏连面对快速增长的数据，如何满足交通挃挥要求? 0 500,000 1,000,000 1,500,000 2,000,000 2,500,000 2005 2006 2007 2008 2009

0 码力 | 36 页 | 2.50 MB | 1 年前
3
大数据集成与Hadoop - IBM

要指导原则： 1. 将大数据集成处理推向数据，而不是将数据推向处理：指定可在RDBMS、Hadoop和ETL网格中执行的适当流程。 2. 避免手动编码：手动编码费用昂贵，而且无法有效适应快速频繁的调整。另外，手动编码不支持自动收集对数据治理至关重要的设计和操作元数据。 3. 不要为RDBMS、Hadoop和ETL网格创建单独的集成开发环境：这种做法没有任何实际意义，而且支持费用非常昂入EDW环境将永远无法进行清理工作，继而导致数据质量较差。 • 企业持续严重依赖手动编码SQL脚本来执行数据转换。 • 添加新数据源或修改现有ETL脚本较为昂贵并且需要很长的时间，限制了快速响应最新需求的能力。 • 数据转换相对简单，因为无法使用ETL工具将较为复杂的逻辑推送到RDBMS。 • 数据质量受到影响。 • 关键任务（如数据剖析）无法实现自动化-在很多情况下根本无法执行。

0 码力 | 16 页 | 1.23 MB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

户的数据业务和数据资产，免运维、低成本、高度安全和稳定性，让客户的资源更加聚焦在业务开发上，加速业务发展。本文所描述的解决方案主要解决 Hadoop 客户如何快速、平滑的迁移到 MaxComute 大数据生态，快速完成数据和业务的迁移以及生态系统的对接。 Alibaba Cloud MaxCompute 解决方案 7

0 码力 | 59 页 | 4.33 MB | 1 年前
3
MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

，数据种类繁多结构化数据，半结构化数据，非结构化数据 ▪ Value - 数据价值，数据价值密度低价值密度的高低与数据总量的大小成反比 ▪ Velocity - 数据处理速度，数据处理速度需要快速数据处理速度是决定大数据应用的关键 4 大数据带来的挑战 ▪ 传统的工具和方法不能有效工作 – 访问和处理数据变得困难； – 需要学习使用新的工具和新的编程方式； – 不得不重写算法以应对数据规模的增大；

0 码力 | 17 页 | 1.64 MB | 1 年前
3
银河麒麟服务器操作系统V4 Hadoop 软件适配手册

成很多单个的、可以在服务器集群中并行执行的任务，而这些任务的计算结果可以合并在一起来计算最终的结果。简而言之，Hadoop Mapreduce 是一个易于编程并且能在大型集群（上千节点）快速地并行得处理大量数据的软件框架，以可靠，容错的方式部署在商用机器上。MapReduce 这个术语来自两个基本的数据转换操作：map 过程和 reduce 过程。  map： map

0 码力 | 8 页 | 313.35 KB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。 9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、

0 码力 | 35 页 | 1.70 MB | 1 年前
3

共 8 条前往

页

分类

语言

格式

Spark 简介以及与 Hadoop 的对比

Hadoop 概述

大数据时代的Intel之Hadoop

大数据集成与Hadoop - IBM

Hadoop 迁移到阿里云MaxCompute 技术方案

MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

尚硅谷大数据技术之Hadoop（入门）