 Spark 简介以及与 Hadoop 的对比Spark 简介以及与 Hadoop 的对比 1 Spark 简介 1.1 Spark 概述 Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算框 架,Spark 基于 map reduce 算法实现的分布式计算,拥有 Hadoop MapReduce 所具有的 优点;但不同于 MapReduce 的是 Job 中间输出和结果可以保存在内存中,从而不再需要读 写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 map reduce 的算 法。 1.2 Spark 核心概念 1.2.1 弹性分布数据集(RDD) RDD 是 Spark 的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式 来操作分布式数据集的抽象实现。RDD 是 Spark 最核心的东西,它表示已被分区,不可变的 的操作不是马上执行,Spark 在遇 到 Transformations 操作时只会记录需要这样的操作,并不会去执行,需要等到有 Actions 操作的时候才会真正启动计算过程进行计算。 2. 操作(Actions) (如:count, collect, save 等),Actions 操作会返回结果或把 RDD 数据写 到存储系统中。Actions 是触发 Spark 启动计算的动因。0 码力 | 3 页 | 172.14 KB | 1 年前3 Spark 简介以及与 Hadoop 的对比Spark 简介以及与 Hadoop 的对比 1 Spark 简介 1.1 Spark 概述 Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算框 架,Spark 基于 map reduce 算法实现的分布式计算,拥有 Hadoop MapReduce 所具有的 优点;但不同于 MapReduce 的是 Job 中间输出和结果可以保存在内存中,从而不再需要读 写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 map reduce 的算 法。 1.2 Spark 核心概念 1.2.1 弹性分布数据集(RDD) RDD 是 Spark 的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式 来操作分布式数据集的抽象实现。RDD 是 Spark 最核心的东西,它表示已被分区,不可变的 的操作不是马上执行,Spark 在遇 到 Transformations 操作时只会记录需要这样的操作,并不会去执行,需要等到有 Actions 操作的时候才会真正启动计算过程进行计算。 2. 操作(Actions) (如:count, collect, save 等),Actions 操作会返回结果或把 RDD 数据写 到存储系统中。Actions 是触发 Spark 启动计算的动因。0 码力 | 3 页 | 172.14 KB | 1 年前3
 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖MathWorks, Inc. MATLAB与Spark/Hadoop相集成:实现大 数据的处理和价值挖 马文辉 2 内容 ▪ 大数据及其带来的挑战 ▪ MATLAB大数据处理 ➢ tall数组 ➢ 并行与分布式计算 ▪ MATLAB与Spark/Hadoop集成 ➢ MATLAB访问HDFS(Hadoop分布式文件系统) ➢ 在Spark/Hadoop集群上运行MATLAB代码 ▪ MapReduce (MDCS/PCT) ▪ MATLAB API for Spark API ▪ Tall Arrays ▪ 计算 ▪ Desktop (Multicore, GPU) ▪ Clusters ▪ Cloud Computing (MDCS on EC2) ▪ Hadoop ▪ Spark ▪ 内存与数据访问 ▪ 64-bit processors ▪ Memory Parallel Computing Toolbox) ▪ MATLAB集群之上的分布式计算 (MDCS, MATLAB Distributed Computing Server) 9 MATLAB与Spark/Hadoop集成 MDCS 10 Hadoop Hadoop是跨计算机集群的分布式大数据处理平台,由两部分组成: • YARN (Yet Another Resource Negotiator)0 码力 | 17 页 | 1.64 MB | 1 年前3 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖MathWorks, Inc. MATLAB与Spark/Hadoop相集成:实现大 数据的处理和价值挖 马文辉 2 内容 ▪ 大数据及其带来的挑战 ▪ MATLAB大数据处理 ➢ tall数组 ➢ 并行与分布式计算 ▪ MATLAB与Spark/Hadoop集成 ➢ MATLAB访问HDFS(Hadoop分布式文件系统) ➢ 在Spark/Hadoop集群上运行MATLAB代码 ▪ MapReduce (MDCS/PCT) ▪ MATLAB API for Spark API ▪ Tall Arrays ▪ 计算 ▪ Desktop (Multicore, GPU) ▪ Clusters ▪ Cloud Computing (MDCS on EC2) ▪ Hadoop ▪ Spark ▪ 内存与数据访问 ▪ 64-bit processors ▪ Memory Parallel Computing Toolbox) ▪ MATLAB集群之上的分布式计算 (MDCS, MATLAB Distributed Computing Server) 9 MATLAB与Spark/Hadoop集成 MDCS 10 Hadoop Hadoop是跨计算机集群的分布式大数据处理平台,由两部分组成: • YARN (Yet Another Resource Negotiator)0 码力 | 17 页 | 1.64 MB | 1 年前3
 全球架构师峰会2019北京/大数据/Kubernetes 运行大数据工作负载的探索和实践&mdashworkload scheduling platform development l Gaps for Spark • Agenda l Why Spark on Kubernetes l Volcano solution for Spark l Future works Why Spark on Kubernetes Kubernetes extends beyond container About Spark on Kubernetes l https://github.com/apache-spark-on-k8s/spark l The goal is to bring native support for Spark to use Kubernetes as a cluster manager like YARN, or Mesos. l Spark 2.3 added Kubernetes. l Spark 2.4 added support for client mode, R, python etc. l Spark 3.0 will add support for dynamic resource allocation, external shuffle service, Kerberos etc. How it works Spark on Kubernetes0 码力 | 25 页 | 3.84 MB | 1 年前3 全球架构师峰会2019北京/大数据/Kubernetes 运行大数据工作负载的探索和实践&mdashworkload scheduling platform development l Gaps for Spark • Agenda l Why Spark on Kubernetes l Volcano solution for Spark l Future works Why Spark on Kubernetes Kubernetes extends beyond container About Spark on Kubernetes l https://github.com/apache-spark-on-k8s/spark l The goal is to bring native support for Spark to use Kubernetes as a cluster manager like YARN, or Mesos. l Spark 2.3 added Kubernetes. l Spark 2.4 added support for client mode, R, python etc. l Spark 3.0 will add support for dynamic resource allocation, external shuffle service, Kerberos etc. How it works Spark on Kubernetes0 码力 | 25 页 | 3.84 MB | 1 年前3
 Ozone:Hadoop 原生分布式对象存储Ozone:Hadoop 原生分布式对象存储 Spark大数据博客 - https://www.iteblog.com Ozone:Hadoop 原生分布式对象存储 Hadoop 社区推出了新一代分布式Key-value对象存储系统 Ozone,同时提供对象和文件访问的接 口,从构架上解决了长久以来困扰HDFS的小文件问题。本文作为Ozone系列文章的第一篇,抛个 砖,介绍Ozone的产生背景,主要架构和功能。 砖,介绍Ozone的产生背景,主要架构和功能。 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop 背景 HDFS是业界默认的大数据存储系统,在业界的大数据集群中有非常广泛的使用。HDFS集群有着 很高的稳定性,得益于它较简单的构架,集群也很容易扩展。业界包含几千个数据节点,保存上 百PB数据的集群也不鲜见。 HDFS通过把文件系统元数据全部加载到Name e的设 计和实现。Ozone的设计遵循一下原则: 1 / 10 Ozone:Hadoop 原生分布式对象存储 Spark大数据博客 - https://www.iteblog.com 强一致性 构架简洁性: 当系统出现问题时,一个简单的架构更容易定位,也容易调试。Ozone尽可能的保持架构 的简单,即使因此需0 码力 | 10 页 | 1.24 MB | 1 年前3 Ozone:Hadoop 原生分布式对象存储Ozone:Hadoop 原生分布式对象存储 Spark大数据博客 - https://www.iteblog.com Ozone:Hadoop 原生分布式对象存储 Hadoop 社区推出了新一代分布式Key-value对象存储系统 Ozone,同时提供对象和文件访问的接 口,从构架上解决了长久以来困扰HDFS的小文件问题。本文作为Ozone系列文章的第一篇,抛个 砖,介绍Ozone的产生背景,主要架构和功能。 砖,介绍Ozone的产生背景,主要架构和功能。 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop 背景 HDFS是业界默认的大数据存储系统,在业界的大数据集群中有非常广泛的使用。HDFS集群有着 很高的稳定性,得益于它较简单的构架,集群也很容易扩展。业界包含几千个数据节点,保存上 百PB数据的集群也不鲜见。 HDFS通过把文件系统元数据全部加载到Name e的设 计和实现。Ozone的设计遵循一下原则: 1 / 10 Ozone:Hadoop 原生分布式对象存储 Spark大数据博客 - https://www.iteblog.com 强一致性 构架简洁性: 当系统出现问题时,一个简单的架构更容易定位,也容易调试。Ozone尽可能的保持架构 的简单,即使因此需0 码力 | 10 页 | 1.24 MB | 1 年前3
 TiDB中文技术文档2. $ cd /opt/spark/data/tispark-sample-data 3. $ mysql -h tidb -P 4000 -u root < dss.ddl 当样本数据加载到 TiDB 集群之后,可以使用 docker-compose exec tispark-master /opt/spark/bin/spark-shell 来访 问 Spark shell。 1. $ docker-compose exec tispark-master /opt/spark/bin/spark-shell 2. ... 3. Spark context available as 'sc' (master = local[*], app id = local-1527045927617). 4. Spark session available as 'spark'. 5. Welcome to 6. 16. scala> import org.apache.spark.sql.TiContext 17. ... 18. scala> val ti = new TiContext(spark) 19. ... 20. scala> ti.tidbMapDatabase("TPCH_001") 21. ... 22. scala> spark.sql("select count(*) from lineitem")0 码力 | 444 页 | 4.89 MB | 6 月前3 TiDB中文技术文档2. $ cd /opt/spark/data/tispark-sample-data 3. $ mysql -h tidb -P 4000 -u root < dss.ddl 当样本数据加载到 TiDB 集群之后,可以使用 docker-compose exec tispark-master /opt/spark/bin/spark-shell 来访 问 Spark shell。 1. $ docker-compose exec tispark-master /opt/spark/bin/spark-shell 2. ... 3. Spark context available as 'sc' (master = local[*], app id = local-1527045927617). 4. Spark session available as 'spark'. 5. Welcome to 6. 16. scala> import org.apache.spark.sql.TiContext 17. ... 18. scala> val ti = new TiContext(spark) 19. ... 20. scala> ti.tidbMapDatabase("TPCH_001") 21. ... 22. scala> spark.sql("select count(*) from lineitem")0 码力 | 444 页 | 4.89 MB | 6 月前3
 Apache Cassandra 快速入门指南(Quick Start)Apache Cassandra 快速入门指南(Quick Start) Spark大数据博客 - https://www.iteblog.com Apache Cassandra 快速入门指南(Quick Start) 我们在这篇文章简单介绍了 Apache Cassandra 是什么,以及有什么值得关注的特性。本文将简单介绍 Apache Cassandra 的安装以及简单使用,可以帮助大家快速了解 3.11.4。Apache Cassandra 可以在 Linux、Unix、Mac OS 以及 Windows 上进行安装,为了简便起见,本文以 CentOS 为例进行介绍。 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 下载、安装并启动 Cassandra 因为本文只是简单介绍 Apache Cassandra 的使用,所以本文仅安装单机版的 21:12 tools 1 / 11 Apache Cassandra 快速入门指南(Quick Start) Spark大数据博客 - https://www.iteblog.com 各个文件或目录介绍如下: bin:这个目录下包含了启动 Cassandra 以及客户端相关操作的可执行文件,包括 query language0 码力 | 11 页 | 0 Bytes | 1 年前3 Apache Cassandra 快速入门指南(Quick Start)Apache Cassandra 快速入门指南(Quick Start) Spark大数据博客 - https://www.iteblog.com Apache Cassandra 快速入门指南(Quick Start) 我们在这篇文章简单介绍了 Apache Cassandra 是什么,以及有什么值得关注的特性。本文将简单介绍 Apache Cassandra 的安装以及简单使用,可以帮助大家快速了解 3.11.4。Apache Cassandra 可以在 Linux、Unix、Mac OS 以及 Windows 上进行安装,为了简便起见,本文以 CentOS 为例进行介绍。 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 下载、安装并启动 Cassandra 因为本文只是简单介绍 Apache Cassandra 的使用,所以本文仅安装单机版的 21:12 tools 1 / 11 Apache Cassandra 快速入门指南(Quick Start) Spark大数据博客 - https://www.iteblog.com 各个文件或目录介绍如下: bin:这个目录下包含了启动 Cassandra 以及客户端相关操作的可执行文件,包括 query language0 码力 | 11 页 | 0 Bytes | 1 年前3
 Apache Doris 在美团外卖数仓中的应用实践Apache Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com Apache Doris在美团外卖数仓中的应用实践 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来 的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado op/Spark分布式大数据技术生态来构建数据仓库,然后对数据进行适当的分层、加工、管理。而 在数据应用交互层面,由于时效性的要求,数据最终的展现查询还是需要通过DBMS(MySQL) 、MOLAP(Kylin)引擎来进行支撑。如下图所示: 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 下的自定义查询,面对如此灵活可变、所见即 1 / 8 Apache Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com 所得的应用场景,美团平台使用Kylin作为公司的主要MOLAP引擎。MOLAP是预计算生产,在增 量业务,预设维度分析场景下表现良0 码力 | 8 页 | 429.42 KB | 1 年前3 Apache Doris 在美团外卖数仓中的应用实践Apache Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com Apache Doris在美团外卖数仓中的应用实践 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来 的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado op/Spark分布式大数据技术生态来构建数据仓库,然后对数据进行适当的分层、加工、管理。而 在数据应用交互层面,由于时效性的要求,数据最终的展现查询还是需要通过DBMS(MySQL) 、MOLAP(Kylin)引擎来进行支撑。如下图所示: 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 下的自定义查询,面对如此灵活可变、所见即 1 / 8 Apache Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com 所得的应用场景,美团平台使用Kylin作为公司的主要MOLAP引擎。MOLAP是预计算生产,在增 量业务,预设维度分析场景下表现良0 码力 | 8 页 | 429.42 KB | 1 年前3
 Go 构建大型开源分布式数据库技术内幕介绍两个有趣的项目 Spark on TiDB TiSpark TiDB + SparkSQL = TiSpark TiKV TiKV TiKV TiKV TiKV TiDB TiDB TiDB TiDB + SparkSQL = TiSpark Spark Master TiKV Connector Data Storage & Coprocessor PD Spark Exec TiKV Connector Spark Exec TiKV Connector Spark Exec Features Beyond Raw Spark ● Index support ● Complex Calculation Pushdown ● CBO ○ Pick up right Access Path ○ Join Reorder Use Case ● Analytical with Spark ○ Possiblility for get rid of Hadoop ● Embrace Spark echo-system ○ Support of complex transformation and analytics with Scala / Python and R ○ Machine Learning Libraries ○ Spark Streaming0 码力 | 44 页 | 649.68 KB | 1 年前3 Go 构建大型开源分布式数据库技术内幕介绍两个有趣的项目 Spark on TiDB TiSpark TiDB + SparkSQL = TiSpark TiKV TiKV TiKV TiKV TiKV TiDB TiDB TiDB TiDB + SparkSQL = TiSpark Spark Master TiKV Connector Data Storage & Coprocessor PD Spark Exec TiKV Connector Spark Exec TiKV Connector Spark Exec Features Beyond Raw Spark ● Index support ● Complex Calculation Pushdown ● CBO ○ Pick up right Access Path ○ Join Reorder Use Case ● Analytical with Spark ○ Possiblility for get rid of Hadoop ● Embrace Spark echo-system ○ Support of complex transformation and analytics with Scala / Python and R ○ Machine Learning Libraries ○ Spark Streaming0 码力 | 44 页 | 649.68 KB | 1 年前3
 TiDB v5.2 中文手册· · · · · · · · · · · · 46 2.5.3 TiDB TPC-H 性能对比测试报告 - v5.2 MPP 模式对比 Greenplum 6.15.0 以及 Apache Spark 3.1.1 · · · · · · 48 2.6 与 MySQL 兼容性对比 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · TPC-H 性能对比测试报告 - v5.2 MPP 模式对比 Greenplum 6.15.0 以及 Apache Spark 3.1.1 2.5.3.1 测试概况 本次测试对比了 TiDB v5.2 MPP 模式下和主流分析引擎例如 Greenplum 和 Apache Spark 最新版在 TPC-H 100 下的性 能表现。结果显示,TiDB v5.2 MPP 模式下相对这些方案有 2-3 中进行了功能优化,这大大幅增强了 TiDB HTAP 形态。 本文的测试对象如下: • TiDB v5.2 MPP 执行模式下的列式存储 • Greenplum 6.15.0 • Apache Spark 3.1.1 + Parquet 48 2.5.3.2 测试环境 2.5.3.2.1 硬件配置 • 节点数量:3 • CPU:Intel(R) Xeon(R) CPU E5-2630 v40 码力 | 2259 页 | 48.16 MB | 1 年前3 TiDB v5.2 中文手册· · · · · · · · · · · · 46 2.5.3 TiDB TPC-H 性能对比测试报告 - v5.2 MPP 模式对比 Greenplum 6.15.0 以及 Apache Spark 3.1.1 · · · · · · 48 2.6 与 MySQL 兼容性对比 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · TPC-H 性能对比测试报告 - v5.2 MPP 模式对比 Greenplum 6.15.0 以及 Apache Spark 3.1.1 2.5.3.1 测试概况 本次测试对比了 TiDB v5.2 MPP 模式下和主流分析引擎例如 Greenplum 和 Apache Spark 最新版在 TPC-H 100 下的性 能表现。结果显示,TiDB v5.2 MPP 模式下相对这些方案有 2-3 中进行了功能优化,这大大幅增强了 TiDB HTAP 形态。 本文的测试对象如下: • TiDB v5.2 MPP 执行模式下的列式存储 • Greenplum 6.15.0 • Apache Spark 3.1.1 + Parquet 48 2.5.3.2 测试环境 2.5.3.2.1 硬件配置 • 节点数量:3 • CPU:Intel(R) Xeon(R) CPU E5-2630 v40 码力 | 2259 页 | 48.16 MB | 1 年前3
 TiDB v5.1 中文手册· · · · · · · · · · · · 46 2.5.3 TiDB TPC-H 性能对比测试报告 - v5.1 MPP 模式对比 Greenplum 6.15.0 以及 Apache Spark 3.1.1 · · · · · · 48 2.6 与 MySQL 兼容性对比 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · TPC-H 性能对比测试报告 - v5.1 MPP 模式对比 Greenplum 6.15.0 以及 Apache Spark 3.1.1 2.5.3.1 测试概况 本次测试对比了 TiDB v5.1 MPP 模式下和主流分析引擎例如 Greenplum 和 Apache Spark 最新版在 TPC-H 100 下的性 能表现。结果显示,TiDB v5.1 MPP 模式下相对这些方案有 2-3 组件的 MPP 模式,这大幅增强了 TiDB HTAP 形态。本文的测试对象如下: • TiDB v5.1 MPP 执行模式下的列式存储 • Greenplum 6.15.0 • Apache Spark 3.1.1 + Parquet 2.5.3.2 测试环境 48 2.5.3.2.1 硬件配置 • 节点数量:3 • CPU:Intel(R) Xeon(R) CPU E5-2630 v40 码力 | 2189 页 | 47.96 MB | 1 年前3 TiDB v5.1 中文手册· · · · · · · · · · · · 46 2.5.3 TiDB TPC-H 性能对比测试报告 - v5.1 MPP 模式对比 Greenplum 6.15.0 以及 Apache Spark 3.1.1 · · · · · · 48 2.6 与 MySQL 兼容性对比 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · TPC-H 性能对比测试报告 - v5.1 MPP 模式对比 Greenplum 6.15.0 以及 Apache Spark 3.1.1 2.5.3.1 测试概况 本次测试对比了 TiDB v5.1 MPP 模式下和主流分析引擎例如 Greenplum 和 Apache Spark 最新版在 TPC-H 100 下的性 能表现。结果显示,TiDB v5.1 MPP 模式下相对这些方案有 2-3 组件的 MPP 模式,这大幅增强了 TiDB HTAP 形态。本文的测试对象如下: • TiDB v5.1 MPP 执行模式下的列式存储 • Greenplum 6.15.0 • Apache Spark 3.1.1 + Parquet 2.5.3.2 测试环境 48 2.5.3.2.1 硬件配置 • 节点数量:3 • CPU:Intel(R) Xeon(R) CPU E5-2630 v40 码力 | 2189 页 | 47.96 MB | 1 年前3
共 97 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10














 
 