尚硅谷大数据技术之Hadoop(入门)2)Reduce 阶段对 Map 结果进行汇总 ss.avi yangge.avi bobo.avi ss1505_w uma.avi ... 100T 任务需求:找出宋宋老师2015年5月份的教学视频 Map Reduce hadoop101 hadoop102 hadoop103 hadoop104 ... ... 520M ss1505_wuma.avi 待分析数据 汇总服务器 a vi Container MapTask SecondaryNa meNode 1.6 大数据技术生态体系 大数据技术生态体系 数据库(结构化数据) 文件日志(半结构化数据) 视频、ppt等(非结构化数据) Sqoop数据传递 Flume日志收集 Kafka消息队列 HDFS文件存储 HBase非关系型数据库 YARN资源管理 MapReduce离线计算 Spark 9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、 名字服务、分布式同步、组服务等。 1.7 推荐系统框架图 推荐系统项目框架 数据库(结构化数据) 文件日志(半结构化数据) 视频、ppt等(非结构化数据) Sqoop数据传递 Flume日志收集 Kafka消息队列 HDFS文件存储 HBase非关系型数据库 YARN资源管理 MapReduce离线计算 Spark0 码力 | 35 页 | 1.70 MB | 1 年前3
Hadoop 概述例如,现代的数据架构正在越来越多地用于建造大型数据湖。 通过将数据管理服务集成为更大的数据湖,企业可以利用各种各样 的渠道来存储和处理大量数据,这些渠道包括社交媒体、点击流数 据、服务器日志、客户交易与交互、视频以及来自现场设备的传感 器数据。 Hortonworks 或者 Cloudera 数据平台,以及 Informatica,使得 企业能够优化 ETL(抽取、转换、加载)工作流程,以便在 Hadoop0 码力 | 17 页 | 583.90 KB | 1 年前3
共 2 条
- 1













