持续改进 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

大数据集成与Hadoop - IBM

月大数据集成与 Hadoop 可最大限度降低Hadoop计划风险并提高ROI的最佳实践 2 大数据集成与 Hadoop 简介 Apache Hadoop技术通过支持新的流程和架构，不断改进大数据措施的经济性和活力，这样不仅有助于削减成本、增加收益，而且还能树立竞争优势。Hadoop是一个开源软件项目，支持在多个商业服务器群集间分散处理和存储大型数据集，并可根据需求变化从单一服务器扩展到数以千计的服务器。主企业是否应卸载EDW中的所有ETL工作负载？ • 是否应将所有大数据集成工作负载都推送到Hadoop？ • 在没有并行关系数据库管理系统 (RDBMS) 和Hadoop 的情况下，大数据集成工作负载在ETL网格中发挥怎样的持续作用？这些问题的正确答案取决于企业独特的大数据需求。企业可以选择并行RDBMS、Hadoop和可扩展的ETL网格来运行大数据集成工作负载。但无论选择哪种方法，信息基础架构都必须满足一 ETL工作负载会导致查询SLA降级，最终需要您额外投资购买昂贵的EDW容量。 • 数据被转储到EDW之前未清理数据，一旦进入EDW环境将永远无法进行清理工作，继而导致数据质量较差。 • 企业持续严重依赖手动编码SQL脚本来执行数据转换。 • 添加新数据源或修改现有ETL脚本较为昂贵并且需要很长的时间，限制了快速响应最新需求的能力。 • 数据转换相对简单，因为无法使用ETL工具将较为复杂

0 码力 | 16 页 | 1.23 MB | 1 年前
3
Hadoop 3.0以及未来

解决方案：客户端(client-side)和服务器端(server-side)的隔离 Shell脚本的重构 - HADOOP-9902 • 脚本重构，提升可维护性和易用性 • 修正一些长期存在的bugs • 加入一些改进 • 加入一些新功能 • 带来一些不兼容性 • Shell脚本现在更易于调试: --debug Hadoop 3介绍 • Common • HDFS  纠错码(Erasure Coding) 于shuffle密集型的task能带来30%的性能提升。 Hadoop 的未来 HDFS的未来 • 对象存储 - HDFS-7240 • 更高性能的Namenode：更高效的内存使用，锁的改进等 • Erasure Coding的完善 YARN的未来 • 更大规模的集群支持 • 更好的资源调度，隔离和多租户 • 支持更多的应用，包括long running的service 谢谢 Q&A

0 码力 | 33 页 | 841.56 KB | 1 年前
3
大数据时代的Intel之Hadoop

5 million 传统的数据处理技术大数据时代的数据速度数据量多样化传统数据大数据 GB -> TB TB -> PB以上数据量稳定，增长不快持续实时产生数据，年增长率超过60％主要为结构化数据半结构化，非结构化，多维数据 ―大数据‖ 挃数据集的大小超过了现有典型的数据库软件和工具的处理能力。不此同时，及时捕捉、存储 Intel的角色 • Intel Hadoop商业发行版 • 对象存储技术 Intel的角色 • 面向大数据应用，在计算、存储和网络方面提供更快更为高效的架构级别的优化方案 • 持续投入大数据应用开发，促迚软件系统和服务的丌断优化和创新 • 推迚终端设备和传感器的智能化，构建亏联、可管理的和安全的分布式架构软硬结合 Intel Hadoop商业发行版

0 码力 | 36 页 | 2.50 MB | 1 年前
3
通过Oracle 并行处理集成 Hadoop 数据

END; END; / Bash 脚本下面这个简短的脚本是图 3 的第 3 步和第 4 步所示的数据库外控制器。只要 Hadoop mapper 保持运行，系统就会持续执行这个同步步骤。 #!/bin/bash cd –HADOOP_HOME- A="/net/scratch/java/jdk1.6.0_16/bin/java -classpath

0 码力 | 21 页 | 1.03 MB | 1 年前
3
Hadoop 概述

本地，但服务提供商给予了更多选择，使得数据也可以存储在云端。目前，SQL、关系型和非关系型数据存储均可使用 Hadoop 的功能。当涉及数据时，Hadoop 已经从长远角度考虑了自身的设计。它非常适用，因为数据会随着时间持续增长。它使用已存在的企业系统，而这些系统可扩展为 Hadoop 数据平台。公司和开源社区中的开发人员正在设计和定义基于 Hadoop 的大规模企业数据的最佳实践。企业以及 IT 社区都非常关注各种数据类型的可扩展性。使用

0 码力 | 17 页 | 583.90 KB | 1 年前
3

共 5 条前往

页

大数集成 Hadoop IBM 3.0 以及未来时代 Intel 通过 Oracle 并行处理并行处理数据概述

分类

语言

格式

大数据集成与Hadoop - IBM

Hadoop 3.0以及未来

大数据时代的Intel之Hadoop

通过Oracle 并行处理集成 Hadoop 数据

Hadoop 概述