 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖
1 © 2015 The MathWorks, Inc. MATLAB与Spark/Hadoop相集成:实现大 数据的处理和价值挖 马文辉 2 内容 ▪ 大数据及其带来的挑战 ▪ MATLAB大数据处理 ➢ tall数组 ➢ 并行与分布式计算 ▪ MATLAB与Spark/Hadoop集成 ➢ MATLAB访问HDFS(Hadoop分布式文件系统) ➢ 在Spark/Hadoop集群上运行MATLAB代码 Negotiator) – 资源调度模型,实现数据跨节点的最小移动 • Map/Reduce – 跨节点分布式计算模型 • HDFS (Hadoop Distributed File System) - 跨节点的分布式文件系统 Hadoop Ecosystem 11 Spark Spark是一个流行的开源集群计算框架 • 并行计算引擎 • 使用广义的计算模型 • 基于内存进行计算(内存计算)0 码力 | 17 页 | 1.64 MB | 1 年前3 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖
1 © 2015 The MathWorks, Inc. MATLAB与Spark/Hadoop相集成:实现大 数据的处理和价值挖 马文辉 2 内容 ▪ 大数据及其带来的挑战 ▪ MATLAB大数据处理 ➢ tall数组 ➢ 并行与分布式计算 ▪ MATLAB与Spark/Hadoop集成 ➢ MATLAB访问HDFS(Hadoop分布式文件系统) ➢ 在Spark/Hadoop集群上运行MATLAB代码 Negotiator) – 资源调度模型,实现数据跨节点的最小移动 • Map/Reduce – 跨节点分布式计算模型 • HDFS (Hadoop Distributed File System) - 跨节点的分布式文件系统 Hadoop Ecosystem 11 Spark Spark是一个流行的开源集群计算框架 • 并行计算引擎 • 使用广义的计算模型 • 基于内存进行计算(内存计算)0 码力 | 17 页 | 1.64 MB | 1 年前3
 尚硅谷大数据技术之Hadoop(入门)Hadoop 项目 中,Hadoop就此正式诞生,标志着大数据时代来临。 9)名字来源于Doug Cutting儿子的玩具大象 Hadoop的logo 1.3 Hadoop 三大发行版本(了解) Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。 Apache 版本最原始(最基础)的版本,对于入门学习最好。2006 Cloudera 内部集成了很多大数据框架,对应产品 Streaming 实时计算 Spark Sql 数据查询 Oozie任务调度 Azkaban任务调度 业务模型、数据可视化、业务应用 Z o o k e e p e r 数 据 平 台 配 置 和 调 度 数据来源层 数据传输层 数据存储层 资源管理层 数据计算层 任务调度层 业务模型层 Storm实时计算 Flink 图中涉及的技术名词解释如下: 1)Sqoop:Sqoop0 码力 | 35 页 | 1.70 MB | 1 年前3 尚硅谷大数据技术之Hadoop(入门)Hadoop 项目 中,Hadoop就此正式诞生,标志着大数据时代来临。 9)名字来源于Doug Cutting儿子的玩具大象 Hadoop的logo 1.3 Hadoop 三大发行版本(了解) Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。 Apache 版本最原始(最基础)的版本,对于入门学习最好。2006 Cloudera 内部集成了很多大数据框架,对应产品 Streaming 实时计算 Spark Sql 数据查询 Oozie任务调度 Azkaban任务调度 业务模型、数据可视化、业务应用 Z o o k e e p e r 数 据 平 台 配 置 和 调 度 数据来源层 数据传输层 数据存储层 资源管理层 数据计算层 任务调度层 业务模型层 Storm实时计算 Flink 图中涉及的技术名词解释如下: 1)Sqoop:Sqoop0 码力 | 35 页 | 1.70 MB | 1 年前3
 Hadoop 概述用户基数等 活动事件而呈现出指数增长。Hadoop 的组件可以帮助你处理这些大 型数据存储。 类似 Google 这样的商业公司可使用 Hadoop 来操作、管理其数 据存储并从中产生出有意义的结果。通常用于商业分析的传统工具 并不旨在处理或分析超大规模数据集,但 Hadoop 是一个适用于这 些商业模型的解决方案。 1.1.1 Hadoop 的组件 Hadoop Common 4 Machine,VM)或笔记本电脑上完成初始配置,而且可以升级到服务 器部署。它具有高度的容错性,并且被设计为能够部署在低成本的 硬件之上。它提供对应用程序数据的高吞吐量访问,适合于面向大 型数据集的应用程序。 在任何环境中,硬件故障都是不可避免的。有了 HDFS,你的 数据可以跨越数千台服务器,而每台服务器上均包含一部分基础数 据。这就是容错功能发挥作用的地方。现实情况是,这么多服务器0 码力 | 17 页 | 583.90 KB | 1 年前3 Hadoop 概述用户基数等 活动事件而呈现出指数增长。Hadoop 的组件可以帮助你处理这些大 型数据存储。 类似 Google 这样的商业公司可使用 Hadoop 来操作、管理其数 据存储并从中产生出有意义的结果。通常用于商业分析的传统工具 并不旨在处理或分析超大规模数据集,但 Hadoop 是一个适用于这 些商业模型的解决方案。 1.1.1 Hadoop 的组件 Hadoop Common 4 Machine,VM)或笔记本电脑上完成初始配置,而且可以升级到服务 器部署。它具有高度的容错性,并且被设计为能够部署在低成本的 硬件之上。它提供对应用程序数据的高吞吐量访问,适合于面向大 型数据集的应用程序。 在任何环境中,硬件故障都是不可避免的。有了 HDFS,你的 数据可以跨越数千台服务器,而每台服务器上均包含一部分基础数 据。这就是容错功能发挥作用的地方。现实情况是,这么多服务器0 码力 | 17 页 | 583.90 KB | 1 年前3
 大数据时代的Intel之Hadoop尽量避免:比方说增加compaction thread数,防止阻塞写入 • 过多的split • 预分配region 大对象的高效存储(IDH2.3) 在交通、金融等领域,要求存储大量的图片 • 将图片存入HBase,引起大量的compaction • 将图片存入HDFS,管理使用麻烦 IDH引入了表外存储以解决大对象的高效存储问题 • 类似Oracle的BLOB存储 • 对用户透明 • 2X以上的写入性能,还有迚一步提升的空间 一个简单的经验公式:每台region server纯写入时高负载应能 达到>1万条记录/秒(每记录200字节) 英特尔Hadoop功能增强 - 跨数据中心大表 虚拟大表 分中心 A 分中心 B 分中心 C 特点与优势 全局虚拟大表,访问方便 大表数据分区存放在物理分中心 接入仸何分中心可访问全局数据 高可用性 适合本地高速写入 分布式聚合计算,避免大数据传输 英特尔Hadoop发行版 实时监控和即时处理提供有效保障 针对企业用户开发的新的平台功能 •提供企业关键应用程序所需的即时大数据分析,以及其他针对企业用户需要的增强功能,例如:提供跨数据中心的 HBase 数据库虚拟大表功能,实现 HBase 数据库复制和备仹功能, 等等。 提供底层 Hadoop 性能优化算法和稳定性增强 •基亍 Hadoop 底层的大量优化算法,配合英特尔优化架构,使应用效率更高、计算0 码力 | 36 页 | 2.50 MB | 1 年前3 大数据时代的Intel之Hadoop尽量避免:比方说增加compaction thread数,防止阻塞写入 • 过多的split • 预分配region 大对象的高效存储(IDH2.3) 在交通、金融等领域,要求存储大量的图片 • 将图片存入HBase,引起大量的compaction • 将图片存入HDFS,管理使用麻烦 IDH引入了表外存储以解决大对象的高效存储问题 • 类似Oracle的BLOB存储 • 对用户透明 • 2X以上的写入性能,还有迚一步提升的空间 一个简单的经验公式:每台region server纯写入时高负载应能 达到>1万条记录/秒(每记录200字节) 英特尔Hadoop功能增强 - 跨数据中心大表 虚拟大表 分中心 A 分中心 B 分中心 C 特点与优势 全局虚拟大表,访问方便 大表数据分区存放在物理分中心 接入仸何分中心可访问全局数据 高可用性 适合本地高速写入 分布式聚合计算,避免大数据传输 英特尔Hadoop发行版 实时监控和即时处理提供有效保障 针对企业用户开发的新的平台功能 •提供企业关键应用程序所需的即时大数据分析,以及其他针对企业用户需要的增强功能,例如:提供跨数据中心的 HBase 数据库虚拟大表功能,实现 HBase 数据库复制和备仹功能, 等等。 提供底层 Hadoop 性能优化算法和稳定性增强 •基亍 Hadoop 底层的大量优化算法,配合英特尔优化架构,使应用效率更高、计算0 码力 | 36 页 | 2.50 MB | 1 年前3
 大数据集成与Hadoop - IBM行软件平台,有些企业采用此做法已有近20年。 久而久之,这些供应商陆续集中关注4个常见的软件架构特征, 以便为实现海量数据可扩展性提供支持,如图2所示。 IBM软件 5 图2. 海量数据可扩展性的4大特征。 大部分商业数据集成软件平台在设计时从未考虑过支持海量数 据可扩展性,这意味着在设计之初,并未考虑利用非共享大规模 并行架构。它们依靠共享的内存多线程,而非软件数据流。 此外,有些供应商 件配置中使用它。 使用它。这些功能对于通过提升效率来降低成本至关重要。没 有它们,该平台将无法处理大量的大数据。 InfoSphere Information Server数据集成产品组合 支持4大海量数据可扩展性架构特征。请在Forrester报 告“Measuring The Total Economic Impact Of IBM InfoSphere Information Server”中了解更多信 可能需要复杂的编程工作 • MapReduce通常比并行数 据库或可扩展ETL工具速度 更慢 • 风险:Hadoop目前仍然是 一项新兴技术 IBM软件 7 以下是优化大数据集成工作负载时需要遵循的三大重要指导 原则: 1. 将大数据集成处理推向数据,而不是将数据推向处理:指定 可在RDBMS、Hadoop和ETL网格中执行的适当流程。 2. 避免手动编码:手动编码费用昂贵,而且无法有效适应快速0 码力 | 16 页 | 1.23 MB | 1 年前3 大数据集成与Hadoop - IBM行软件平台,有些企业采用此做法已有近20年。 久而久之,这些供应商陆续集中关注4个常见的软件架构特征, 以便为实现海量数据可扩展性提供支持,如图2所示。 IBM软件 5 图2. 海量数据可扩展性的4大特征。 大部分商业数据集成软件平台在设计时从未考虑过支持海量数 据可扩展性,这意味着在设计之初,并未考虑利用非共享大规模 并行架构。它们依靠共享的内存多线程,而非软件数据流。 此外,有些供应商 件配置中使用它。 使用它。这些功能对于通过提升效率来降低成本至关重要。没 有它们,该平台将无法处理大量的大数据。 InfoSphere Information Server数据集成产品组合 支持4大海量数据可扩展性架构特征。请在Forrester报 告“Measuring The Total Economic Impact Of IBM InfoSphere Information Server”中了解更多信 可能需要复杂的编程工作 • MapReduce通常比并行数 据库或可扩展ETL工具速度 更慢 • 风险:Hadoop目前仍然是 一项新兴技术 IBM软件 7 以下是优化大数据集成工作负载时需要遵循的三大重要指导 原则: 1. 将大数据集成处理推向数据,而不是将数据推向处理:指定 可在RDBMS、Hadoop和ETL网格中执行的适当流程。 2. 避免手动编码:手动编码费用昂贵,而且无法有效适应快速0 码力 | 16 页 | 1.23 MB | 1 年前3
 Spark 简介以及与 Hadoop 的对比map, join etc.)行为。当这个 RDD 的部分分区数据丢失时,它可以通过 Lineage 获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型,限制了 Spark 的运用场合,但同时相比细颗粒度的数据模型,也带来了性能的提升。 RDD 在 Lineage 依赖方面分为两种 Narrow Dependencies 与 Wide Dependencies 用 来解决数据容错的高效性。Narrow 各个处理节点 之间的通信模型不再像 Hadoop 那样就是唯一的 Data Shuffle 一种模式。用户可以命名, 物化,控制中间结果的存储、分区等。可以说编程模型比 Hadoop 更灵活。 3. 由于 RDD 的特性,Spark 不适用那种异步细粒度更新状态的应用,例如 web 服务的存 储或者是增量的 web 爬虫和索引。就是对于那种增量修改的应用模型不适合。 2.3 容错性0 码力 | 3 页 | 172.14 KB | 1 年前3 Spark 简介以及与 Hadoop 的对比map, join etc.)行为。当这个 RDD 的部分分区数据丢失时,它可以通过 Lineage 获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型,限制了 Spark 的运用场合,但同时相比细颗粒度的数据模型,也带来了性能的提升。 RDD 在 Lineage 依赖方面分为两种 Narrow Dependencies 与 Wide Dependencies 用 来解决数据容错的高效性。Narrow 各个处理节点 之间的通信模型不再像 Hadoop 那样就是唯一的 Data Shuffle 一种模式。用户可以命名, 物化,控制中间结果的存储、分区等。可以说编程模型比 Hadoop 更灵活。 3. 由于 RDD 的特性,Spark 不适用那种异步细粒度更新状态的应用,例如 web 服务的存 储或者是增量的 web 爬虫和索引。就是对于那种增量修改的应用模型不适合。 2.3 容错性0 码力 | 3 页 | 172.14 KB | 1 年前3
 這些年,我們一起追的HadoopHDFS 只能有一個 Namespace,沒辦法分開管控 /sales、/accounting、... 只能執行 MapReduce Job ... 弱弱的問一下:台灣有多少企業 Cluster 有這麼大?Task 有這麼 多? 11 / 74 我們對 Hadoop 的期許: Batch Job Interactive Query Real-Time Processing Graph Processing MapReduce 演化成 Data Processing Platform 之後,改善 Hive 的效能 滿足 Interactive Query 與 PB-Scale Processing 的需求 三大目標: Speed:比 Hive 10 快 100 倍 Scale:撐的下 TB 到 PB 等級的資料 SQL Compatibility:最廣泛的 SQL 語法支援 13 個月內一共有來自 44 球賽的期間合作,透過 Dataflow 讀取數百萬則 Twitter 貼文,做球迷情感分析 號稱下一代的 Dataflow 目前也是寫 Java iThome Google I/O 2014 快報:雲端大資料分析服務 Dataflow 現身 62 / 74 Data 重要議題: SQL on Hadoop NoSQL and Hadoop 資料不落地 資料不出防火牆 ... 所以: 從 Hue0 码力 | 74 页 | 45.76 MB | 1 年前3 這些年,我們一起追的HadoopHDFS 只能有一個 Namespace,沒辦法分開管控 /sales、/accounting、... 只能執行 MapReduce Job ... 弱弱的問一下:台灣有多少企業 Cluster 有這麼大?Task 有這麼 多? 11 / 74 我們對 Hadoop 的期許: Batch Job Interactive Query Real-Time Processing Graph Processing MapReduce 演化成 Data Processing Platform 之後,改善 Hive 的效能 滿足 Interactive Query 與 PB-Scale Processing 的需求 三大目標: Speed:比 Hive 10 快 100 倍 Scale:撐的下 TB 到 PB 等級的資料 SQL Compatibility:最廣泛的 SQL 語法支援 13 個月內一共有來自 44 球賽的期間合作,透過 Dataflow 讀取數百萬則 Twitter 貼文,做球迷情感分析 號稱下一代的 Dataflow 目前也是寫 Java iThome Google I/O 2014 快報:雲端大資料分析服務 Dataflow 現身 62 / 74 Data 重要議題: SQL on Hadoop NoSQL and Hadoop 資料不落地 資料不出防火牆 ... 所以: 從 Hue0 码力 | 74 页 | 45.76 MB | 1 年前3
 银河麒麟服务器操作系统V4 Hadoop 软件适配手册分为多个 block 块,管理 block 块信息,同时周期性的将其所有的 block 块信息发 送给 NameNode。 1.5 MapReduce 介绍 MapReduce 是一种计算模型,该模型可以将大型数据处理任务分解成很多单 个的、可以在服务器集群中并行执行的任务,而这些任务的计算结果可以合并在 一起来计算最终的结果。简而言之,Hadoop Mapreduce 是一个易于编程并且能在0 码力 | 8 页 | 313.35 KB | 1 年前3 银河麒麟服务器操作系统V4 Hadoop 软件适配手册分为多个 block 块,管理 block 块信息,同时周期性的将其所有的 block 块信息发 送给 NameNode。 1.5 MapReduce 介绍 MapReduce 是一种计算模型,该模型可以将大型数据处理任务分解成很多单 个的、可以在服务器集群中并行执行的任务,而这些任务的计算结果可以合并在 一起来计算最终的结果。简而言之,Hadoop Mapreduce 是一个易于编程并且能在0 码力 | 8 页 | 313.35 KB | 1 年前3
 Hadoop 3.0以及未来Spark、Kafka、Cassandra等开源大数据顷目建立ebay的广告和数 据平台。 • 加入ebay前,在intel工作6年,大数据架构师,负责领导大数据的 开源贡献、基于Intel平台的开源顷目优化以及一些基于Spark的大 规模机器/深度学习顷目。 • 超过9年的互联网、云计算、大数据的工作经验。 概要 • Hadoop的历叱 • Hadoop 3介绍  Common  HDFS  YARN  MapReduce0 码力 | 33 页 | 841.56 KB | 1 年前3 Hadoop 3.0以及未来Spark、Kafka、Cassandra等开源大数据顷目建立ebay的广告和数 据平台。 • 加入ebay前,在intel工作6年,大数据架构师,负责领导大数据的 开源贡献、基于Intel平台的开源顷目优化以及一些基于Spark的大 规模机器/深度学习顷目。 • 超过9年的互联网、云计算、大数据的工作经验。 概要 • Hadoop的历叱 • Hadoop 3介绍  Common  HDFS  YARN  MapReduce0 码力 | 33 页 | 841.56 KB | 1 年前3
 Hadoop 迁移到阿里云MaxCompute 技术方案MaxCompute 内建支持的上百种机器学习算法,目前 MaxCompute 的机器学习能力由 PAI 产品进行统一提供 服务,同时 PAI 提供了深度学习框架、Notebook 开发 环境、GPU 计算资源、模型在线部署的弹性预测服务。 MaxCompute 的数据对 PAI 产品无缝集成。 存储 Pangu 阿里自研分布式存储服务,类似 HDFS。MaxCompute 对外目前只暴露表接口,不能直接访问文件系统。0 码力 | 59 页 | 4.33 MB | 1 年前3 Hadoop 迁移到阿里云MaxCompute 技术方案MaxCompute 内建支持的上百种机器学习算法,目前 MaxCompute 的机器学习能力由 PAI 产品进行统一提供 服务,同时 PAI 提供了深度学习框架、Notebook 开发 环境、GPU 计算资源、模型在线部署的弹性预测服务。 MaxCompute 的数据对 PAI 产品无缝集成。 存储 Pangu 阿里自研分布式存储服务,类似 HDFS。MaxCompute 对外目前只暴露表接口,不能直接访问文件系统。0 码力 | 59 页 | 4.33 MB | 1 年前3
共 11 条
- 1
- 2













