大数据时代的Intel之Hadoop关系数据ETL工具 Flume 1.1.0 日志收集工具 Intel Hadoop Manager 2.2 安装、部署、配置、监控、告警和访问控制 Zookeeper 3.4.4 分布式协作服务 Pig 0.9.2 数据流处理语言 Mahout 0.6 数据挖掘 HBase 0.94.1 实时、分布式、高维数据库 Map/Reduce 1.0.3 分布式计算框架0 码力 | 36 页 | 2.50 MB | 1 年前3
大数据集成与Hadoop - IBM建议步骤: • 查找:利用条款、标记和集合来查找接受治理和监管的 数据源 • 监管:为相关资产添加标记、条款和自定义属性 • 收集:通过收集来捕获资产,并开展具体的分析或治理 工作 • 协作:共享其他内容管理和治理集合 • 治理:创建并引用信息治理策略和规则;应用数据质 量、屏蔽、归档和清除操作 • 卸载:单击HDFS来复制数据并执行分析,以便强化仓库 • 分析:分析已卸载的数据0 码力 | 16 页 | 1.23 MB | 1 年前3
尚硅谷大数据技术之Hadoop(生产调优手册)fs -cp har:///output/input.har/* / 第 7 章 HDFS—集群迁移 7.1 Apache 和 Apache 集群间数据拷贝 1)scp 实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push scp -r root@ha scp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/atguigu //是通过本 地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间 ssh 没有配置的情况下 可以使用该方式。 2)采用 distcp 命令实现两个 Hadoop 集群之间的递归数据复制 [atguigu@hadoop102 hadoop-30 码力 | 41 页 | 2.32 MB | 1 年前3
尚硅谷大数据技术之Hadoop(入门)[atguigu@hadoop103 opt]$ scp -r atguigu@hadoop102:/opt/module/* atguigu@hadoop104:/opt/module 2)rsync 远程同步工具 rsync 主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。 rsync 和 scp 区别:用 rsync 做文件的复制要比 scp 的速度快,rsync 只对差异文件做更0 码力 | 35 页 | 1.70 MB | 1 年前3
共 4 条
- 1













