這些年,我們一起追的HadoopHadoop 富二代 46 / 74 Parallel Processing: Tez Spark ... User Interface: Hue SQL on Hadoop: Impala Presto Drill/Dremel/BigQuery ... Data Collector: Flume Chukwa Scribe ... Machine Learning: Mahout Cloudera 主導 Online Demo:http://demo.gethue.com/ 50 / 74 Hue - Interactive SQL & Dashboard 51 / 74 Impala - Real-Time Queries in Hadoop Cloudera 主導,做了兩年才在 2012 年正式發表 支援 HDFS/HBase 的 Distributed Parallel MapReduce,直接透過 In-Memory Process 來處理 Compliant with ANSI-92 SQL Standard,所以透過 Cloudera ODBC Driver for Impala,就可以跟既有的 BI/DW 工具整合 52 / 74 Presto Facebook 主導,2012 年秋天開始發展,2013 年春天開始推 廣,作為 Facebook Data Warehouse0 码力 | 74 页 | 45.76 MB | 1 年前3
Hadoop 迁移到阿里云MaxCompute 技术方案流处理 Spark Streaming Flink Storm 实时计算(原流计算) EMR(开源流计算组件) 分析型数据存储 数据仓库: GreenPlum/Impala/Presto/Hive NoSQL:Hbase 数据仓库:MaxCompute/ Hologres/分析 型数据库 NoSQL:云数据库 Hbase 版/表格存储 分析与报表 Cloud MaxCompute 解决方案 16 MapReduce MaxCompute MR Apache Spark MaxCompute Spark 交互式分析 Impala Presto Hawk GreenPlum 等交互式分析 MaxCompute Lightning,提供只读的交互式查 询服务 图计算 Spark GraphX MaxCompute 解决方案 25 网络环境(私有网络、经典网络、VPC 专) 有无专线 常用组件(Hive、Spark、Storm、HBase、Flink、Kafa、Impala、Sqoop、Kylin、Flume) 机器配置(CPU 核数、内存大小) 数据量及存储类型 作业量及作业类型(SQL 脚本上传) 调度系统及周期(Pipeline0 码力 | 59 页 | 4.33 MB | 1 年前3
Hadoop 概述有能力向群集提供资源,它的资源容量即内存和其他资源的数量。 在运行时,资源调度器将决定如何使用该容量。Hadoop 2 中的 YARN 框架允许工作负载在各种处理框架之间动态共享群集资源,这些框 架包括 MapReduce、Impala 和 Spark。YARN 目前用于处理内存和 CPU,并将在未来用于协调其他资源,例如磁盘和网络 I/O。 1.2 ZooKeeper 是什么 ZooKeeper 是另一项 Hadoop0 码力 | 17 页 | 583.90 KB | 1 年前3
共 3 条
- 1













