 通过Oracle 并行处理集成 Hadoop 数据下面我们将以一个实际示例展示图 2 的架构。请注意,我们的示例仅展示了使用表函数访问 Hadoop 中存储的数据的一个模板实现。显然可能存在其他的甚至可能更好的实现。 下图是图 2 中原始示意图在技术上更准确、更具体的展示,解释了我们要在何处、如何使用 后文给出的部分实际代码: 图 3. 启动 Mapper 作业并检索数据 第 1 步是确定由谁作为查 Java Mapper 脚本 我们为本例编写了在 Hadoop 集群上执行的一个简单的 mapper 进程。实际上当然存在许多更 加完善的 mapper。这个 mapper 将一个字符串转为两个数字,并按照逐行的方式将其提供给 队列。 // Simplified mapper example for Hadoop cluster import java.sql.*; //import0 码力 | 21 页 | 1.03 MB | 1 年前3 通过Oracle 并行处理集成 Hadoop 数据下面我们将以一个实际示例展示图 2 的架构。请注意,我们的示例仅展示了使用表函数访问 Hadoop 中存储的数据的一个模板实现。显然可能存在其他的甚至可能更好的实现。 下图是图 2 中原始示意图在技术上更准确、更具体的展示,解释了我们要在何处、如何使用 后文给出的部分实际代码: 图 3. 启动 Mapper 作业并检索数据 第 1 步是确定由谁作为查 Java Mapper 脚本 我们为本例编写了在 Hadoop 集群上执行的一个简单的 mapper 进程。实际上当然存在许多更 加完善的 mapper。这个 mapper 将一个字符串转为两个数字,并按照逐行的方式将其提供给 队列。 // Simplified mapper example for Hadoop cluster import java.sql.*; //import0 码力 | 21 页 | 1.03 MB | 1 年前3
 尚硅谷大数据技术之Hadoop(生产调优手册)人工智能资料下载,可百度访问:尚硅谷官网 总数=3),就可以得到原始数据。每个单元的大小是 1024k=1024*1024=1048576。 RS-10-4-1024k:使用 RS 编码,每 10 个数据单元(cell),生成 4 个校验单元,共 14 个单元,也就是说:这 14 个单元中,只要有任意的 10 个单元存在(不管是数据单元还是校 验单元,只要总数=10),就可以得到原始数据。每个单元的大小是 1024 RS-6-3-1024k:使用 RS 编码,每 6 个数据单元,生成 3 个校验单元,共 9 个单元,也 就是说:这 9 个单元中,只要有任意的 6 个单元存在(不管是数据单元还是校验单元,只要 总数=6),就可以得到原始数据。每个单元的大小是 1024k=1024*1024=1048576。 RS-LEGACY-6-3-1024k:策略和上面的 RS-6-3-1024k 一样,只是编码的算法用的是 rs- legacy。 编码(速度比 RS 编码快),每 2 个数据单元,生成 1 个校 验单元,共 3 个单元,也就是说:这 3 个单元中,只要有任意的 2 个单元存在(不管是数据 单元还是校验单元,只要总数= 2),就可以得到原始数据。每个单元的大小是 1024k=1024*1024=1048576。 5.1.2 纠删码案例实操 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对0 码力 | 41 页 | 2.32 MB | 1 年前3 尚硅谷大数据技术之Hadoop(生产调优手册)人工智能资料下载,可百度访问:尚硅谷官网 总数=3),就可以得到原始数据。每个单元的大小是 1024k=1024*1024=1048576。 RS-10-4-1024k:使用 RS 编码,每 10 个数据单元(cell),生成 4 个校验单元,共 14 个单元,也就是说:这 14 个单元中,只要有任意的 10 个单元存在(不管是数据单元还是校 验单元,只要总数=10),就可以得到原始数据。每个单元的大小是 1024 RS-6-3-1024k:使用 RS 编码,每 6 个数据单元,生成 3 个校验单元,共 9 个单元,也 就是说:这 9 个单元中,只要有任意的 6 个单元存在(不管是数据单元还是校验单元,只要 总数=6),就可以得到原始数据。每个单元的大小是 1024k=1024*1024=1048576。 RS-LEGACY-6-3-1024k:策略和上面的 RS-6-3-1024k 一样,只是编码的算法用的是 rs- legacy。 编码(速度比 RS 编码快),每 2 个数据单元,生成 1 个校 验单元,共 3 个单元,也就是说:这 3 个单元中,只要有任意的 2 个单元存在(不管是数据 单元还是校验单元,只要总数= 2),就可以得到原始数据。每个单元的大小是 1024k=1024*1024=1048576。 5.1.2 纠删码案例实操 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对0 码力 | 41 页 | 2.32 MB | 1 年前3
 尚硅谷大数据技术之Hadoop(入门)Cutting儿子的玩具大象 Hadoop的logo 1.3 Hadoop 三大发行版本(了解) Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。 Apache 版本最原始(最基础)的版本,对于入门学习最好。2006 Cloudera 内部集成了很多大数据框架,对应产品 CDH。2008 Hortonworks 文档较好,对应产品 HDP。2011 Hortonworks atguigu@hadoop103:/opt/module/hadoop-3.1.3/ 3)xsync 集群分发脚本 (1)需求:循环复制文件到所有节点的相同目录下 (2)需求分析: (a)rsync 命令原始拷贝: rsync -av /opt/module atguigu@hadoop103:/opt/ (b)期望脚本: xsync 要同步的文件名称 (c)期望脚本0 码力 | 35 页 | 1.70 MB | 1 年前3 尚硅谷大数据技术之Hadoop(入门)Cutting儿子的玩具大象 Hadoop的logo 1.3 Hadoop 三大发行版本(了解) Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。 Apache 版本最原始(最基础)的版本,对于入门学习最好。2006 Cloudera 内部集成了很多大数据框架,对应产品 CDH。2008 Hortonworks 文档较好,对应产品 HDP。2011 Hortonworks atguigu@hadoop103:/opt/module/hadoop-3.1.3/ 3)xsync 集群分发脚本 (1)需求:循环复制文件到所有节点的相同目录下 (2)需求分析: (a)rsync 命令原始拷贝: rsync -av /opt/module atguigu@hadoop103:/opt/ (b)期望脚本: xsync 要同步的文件名称 (c)期望脚本0 码力 | 35 页 | 1.70 MB | 1 年前3
 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖
– 一种新的数据类型,专门用于处理大数据. – 用于处理数据规模超过单个机器或群集的内存承载能力的数据集合 ▪ 使用方式等同于MATLAB 数组(array) – 支持数据类型包括数值型、字符串、时间类型、表等… – 支持众多基本的数学函数、统计函数、索引函数等. – 支持机器学习算法包括分类、聚类和回归 7 tall array Single Machine Memory0 码力 | 17 页 | 1.64 MB | 1 年前3 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖
– 一种新的数据类型,专门用于处理大数据. – 用于处理数据规模超过单个机器或群集的内存承载能力的数据集合 ▪ 使用方式等同于MATLAB 数组(array) – 支持数据类型包括数值型、字符串、时间类型、表等… – 支持众多基本的数学函数、统计函数、索引函数等. – 支持机器学习算法包括分类、聚类和回归 7 tall array Single Machine Memory0 码力 | 17 页 | 1.64 MB | 1 年前3
共 4 条
- 1













