 這些年,我們一起追的Hadoop2. Hadoop 家族 3. Hadoop 戰隊 4. Hadoop 富二代 5. Hadoop 小圈圈 6. 喝咖啡騎大象建議 因為這個題目其實包山包海,所以我們今天只把焦點放在 Hadoop 身上。 3 / 74 前情提要 4 / 74 由創建 Lucene 與 Nutch 的 Doug Cutting 主導開發 Lucene 是個全文檢索的程式 庫,Nutch 是個搜尋引擎 Compatibility 做的很棒 Yahoo! 去年就已經把 Hadoop 2.x 部署在 35,000+ Node 跑了六 個月以上 ... 21 / 74 1. Submit Job 2. 建構特定 AM 3. 向 RM 註冊 AM 4. 送 Request 給 RM 5. 配置啟動 Container 6. AM/Container 溝通 7. Client/AM 溝通 8. 回收 AM Goodbye MapReduce 的新聞稿,新的 Codebase 會以 Scala DSL 為基礎,在 Spark 上執行 選邊站的 Mahout 59 / 74 這年頭,大家相堵會到! 喝咖啡騎大象建議 60 / 74 Python Ruby C/C++ C# Perl Bash ... Programming Java: 曾經是 MapReduce 心裡頭的唯一 現在是 YARN0 码力 | 74 页 | 45.76 MB | 1 年前3 這些年,我們一起追的Hadoop2. Hadoop 家族 3. Hadoop 戰隊 4. Hadoop 富二代 5. Hadoop 小圈圈 6. 喝咖啡騎大象建議 因為這個題目其實包山包海,所以我們今天只把焦點放在 Hadoop 身上。 3 / 74 前情提要 4 / 74 由創建 Lucene 與 Nutch 的 Doug Cutting 主導開發 Lucene 是個全文檢索的程式 庫,Nutch 是個搜尋引擎 Compatibility 做的很棒 Yahoo! 去年就已經把 Hadoop 2.x 部署在 35,000+ Node 跑了六 個月以上 ... 21 / 74 1. Submit Job 2. 建構特定 AM 3. 向 RM 註冊 AM 4. 送 Request 給 RM 5. 配置啟動 Container 6. AM/Container 溝通 7. Client/AM 溝通 8. 回收 AM Goodbye MapReduce 的新聞稿,新的 Codebase 會以 Scala DSL 為基礎,在 Spark 上執行 選邊站的 Mahout 59 / 74 這年頭,大家相堵會到! 喝咖啡騎大象建議 60 / 74 Python Ruby C/C++ C# Perl Bash ... Programming Java: 曾經是 MapReduce 心裡頭的唯一 現在是 YARN0 码力 | 74 页 | 45.76 MB | 1 年前3
 Hadoop 迁移到阿里云MaxCompute 技术方案2.1 Hadoop 及开源生态与阿里云大数据生态对比 2.1.1 主流大数据体系架构 Hadoop 及开源生态由一系列的开源组件共同组成,很多用户基于 Hadoop 及开源生态组件构 建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括:  数据源:数据源包括关系型数据库、日志文件、实时消息等。 加速迁移改造的进程。 同时,需要对当前系统与 MaxCompute 环境进行业务对比验证,确定迁移的正确性。 迁移开展时,您可以选择部分试点业务迁移或全量业务进行迁移。对于规模较大的用户,建 议您选择部分试点业务先行进行迁移验证,待迁移验证通过后,再扩展更大的业务范围以降低迁 移风险、提高迁移质量。 5.3 阶段 3:并行测试,割接 迁移完成后,建议基于增量数据与当前系统进行并行测试,待并行一段时间后,对并行测试0 码力 | 59 页 | 4.33 MB | 1 年前3 Hadoop 迁移到阿里云MaxCompute 技术方案2.1 Hadoop 及开源生态与阿里云大数据生态对比 2.1.1 主流大数据体系架构 Hadoop 及开源生态由一系列的开源组件共同组成,很多用户基于 Hadoop 及开源生态组件构 建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括:  数据源:数据源包括关系型数据库、日志文件、实时消息等。 加速迁移改造的进程。 同时,需要对当前系统与 MaxCompute 环境进行业务对比验证,确定迁移的正确性。 迁移开展时,您可以选择部分试点业务迁移或全量业务进行迁移。对于规模较大的用户,建 议您选择部分试点业务先行进行迁移验证,待迁移验证通过后,再扩展更大的业务范围以降低迁 移风险、提高迁移质量。 5.3 阶段 3:并行测试,割接 迁移完成后,建议基于增量数据与当前系统进行并行测试,待并行一段时间后,对并行测试0 码力 | 59 页 | 4.33 MB | 1 年前3
共 2 条
- 1













