Spark 简介以及与 Hadoop 的对比能更好地适用于数据挖掘与机器学习等需要迭代的 map reduce 的算 法。 1.2 Spark 核心概念 1.2.1 弹性分布数据集(RDD) RDD 是 Spark 的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式 来操作分布式数据集的抽象实现。RDD 是 Spark 最核心的东西,它表示已被分区,不可变的 并能够被并行操作的数据集合,不同的数据集格式对应不同的 RDD 实现。RDD 必须是可序 Hadoop 对比 2.1 快速 Spark 的中间数据放到内存中,对于迭代运算效率更高。Spark 更适合于迭代运算比较多 的 ML 和 DM 运算。因为在 Spark 里面,有 RDD 的抽象概念。 2.2 灵活 1. Spark 提供的数据集操作类型有很多种,不像 Hadoop 只提供了 Map 和 Reduce 两种操 作。比如 map, filter, flatMap,0 码力 | 3 页 | 172.14 KB | 1 年前3
Hadoop 迁移到阿里云MaxCompute 技术方案使用时,存储与计算解耦,不需要仅仅为了存储扩大不必 要的计算资源 SQL MaxCompute SQL TPC-DS 100% 支持,同时语法高度兼容 Hive,有 Hive 背景开发者直接上手,特别在大数据规模下性能强大。 * 完全自主开发的 compiler,语言功能开发更灵活,迭 代快,语法语义检查更加灵活高效 * 基于代价的优化器,更智能,更强大,更适合复杂的查 询 * 基于 LLVM 的代码生成,让执行过程更高效 的代码生成,让执行过程更高效 * 支持复杂数据类型(array,map,struct) * 支持 Java、Python 语言的 UDF/UDAF/UDTF * 语法:Values、CTE、SEMIJOIN、FROM 倒装、 Subquery Operations、Set Operations(UNION /INTERSECT /MINUS)、SELECT TRANSFORM 、User Hive SQL -> MaxCompute SQL 自动转换 6.5.1.1 使用 sql-checker 做语法检查 Agent 提供 SQL 语法检查的工具,可以帮助开发者自助的对 Hive SQL 做语法检查,并且对于 不兼容的语法,sql-checker 会输出所有的语法和语义问题,并给出修改建议。 Alibaba Cloud MaxCompute 解决方案 430 码力 | 59 页 | 4.33 MB | 1 年前3
尚硅谷大数据技术之Hadoop(入门)xsync 1)scp(secure copy)安全拷贝 (1)scp 定义 scp 可以实现服务器与服务器之间的数据拷贝。(from server1 to server2) (2)基本语法 scp -r $pdir/$fname $user@$host:$pdir/$fname 命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称 Hadoop(入门) ————————————————————————————— 更多 Java –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网 (1)基本语法 rsync -av $pdir/$fname $user@$host:$pdir/$fname 命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称 source /etc/profile [atguigu@hadoop104 opt]$ source /etc/profile 3.2.3 SSH 无密登录配置 1)配置 ssh (1)基本语法 ssh 另一台电脑的 IP 地址 (2)ssh 连接时出现 Host key verification failed 的解决方法 [atguigu@hadoop102 ~]$ ssh hadoop1030 码力 | 35 页 | 1.70 MB | 1 年前3
Hadoop 概述是一个适用于这 些商业模型的解决方案。 1.1.1 Hadoop 的组件 Hadoop Common 是 Hadoop 的基础,因为它包含主要服务和基 本进程,例如对底层操作系统及其文件系统的抽象。Hadoop Common 还包含必要的 Java 归档(Java Archive,JAR)文件和用于启 动 Hadoop 的脚本。Hadoop Common 包甚至提供了源代码和文档, 以及贡献者的相关内容。如果没有0 码力 | 17 页 | 583.90 KB | 1 年前3
尚硅谷大数据技术之Hadoop(生产调优手册)block 数的 百分比,默认 0.999f。(只允许丢一个块) dfs.namenode.safemode.extension:稳定时间,默认值 30000 毫秒,即 30 秒 4)基本语法 集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模 式。 (1)bin/hdfs dfsadmin -safemode get (功能描述:查看安全模式状态)0 码力 | 41 页 | 2.32 MB | 1 年前3
共 5 条
- 1













