Hadoop 迁移到阿里云MaxCompute 技术方案环境进行业务对比验证,确定迁移的正确性。 迁移开展时,您可以选择部分试点业务迁移或全量业务进行迁移。对于规模较大的用户,建 议您选择部分试点业务先行进行迁移验证,待迁移验证通过后,再扩展更大的业务范围以降低迁 移风险、提高迁移质量。 5.3 阶段 3:并行测试,割接 迁移完成后,建议基于增量数据与当前系统进行并行测试,待并行一段时间后,对并行测试 结果进行对比验证,符合业务预期即可将业务全部切换至 MaxCompute 已有数据应用(如血缘、监控、质量等) 上层应用系统(如帆软 BI、推荐系统等) 期望时间 成本要求 Alibaba Cloud MaxCompute 解决方案 26 6.3.1.3 检查网络连通性 使用客户端工具 network-measurement-tool 可以检查 Hadoop 集群与 MaxCompute 各个 Region 的网络连通质量,以及 56 2、 您可以使用 MMA Agent 的 network-measurement-tool 工具检查您的 Hadoop 集群到 MaxCompute 各 Region 网络的连接质量和网络上下行的传输速率评测。参见 6.3.1.3。 8.1.2 开通 MaxCompute 和 Dataworks 服务 1. 开通 MaxCompute 服务,参见文档: https://help0 码力 | 59 页 | 4.33 MB | 1 年前3
大数据集成与Hadoop - IBM数据被转储到EDW之前未清理数据,一旦进入EDW环 境将永远无法进行清理工作,继而导致数据质量较差。 • 企业持续严重依赖手动编码SQL脚本来执行数据转换。 • 添加新数据源或修改现有ETL脚本较为昂贵并且需要很 长的时间,限制了快速响应最新需求的能力。 • 数据转换相对简单,因为无法使用ETL工具将较为复杂 的逻辑推送到RDBMS。 • 数据质量受到影响。 • 关键任务(如数据剖析)无法实现自动化-在很多情况下 通过部署全面的数据治理计划,您可以构建环境来帮助确保 所有Hadoop数据具有出色的品质、安全可靠且适合使用目 的。这可以帮助企业用户回答以下问题: • 我理解这些数据的内容和意义吗? • 我能衡量这些信息的质量吗? • 报告中的数据来自何处? • 这对Hadoop内部数据有着怎样的影响? • 数据在抵达Hadoop数据湖之前存储在哪里? 最佳实践5:在企业间实施强大的管理和操作控制 采用Hado0 码力 | 16 页 | 1.23 MB | 1 年前3
MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖
大数据带来的挑战 ▪ 传统的工具和方法不能有效工作 – 访问和处理数据变得困难; – 需要学习使用新的工具和新的编程方式; – 不得不重写算法以应对数据规模的增大; ▪ 现有处理或计算方法下的结果质量受到影响 – 被迫只能处理一部分数据(数据子集); – 采用新的工具或重写算法会对现有生产力产生影响; ▪ 数据处理与分析所需时间增长 – 数据规模增大、数据复杂度增加,增加处理难度和所需时间;0 码力 | 17 页 | 1.64 MB | 1 年前3
大数据时代的Intel之Hadoop迚行更新。相关应用软件可能无法不所有的操作系统兼容。请咨询您的应用厂商以了解具体信息。 *文中涉及的其它名称及商标属亍各自所有者资产。 英特尔所列的厂商仅为方便英特尔客户。但英特尔对亍这些设备的质量、可靠性、功能戒兼容性丌提供仸何担保戒保证。本列表和/戒这些设备可随时更改,恕丌另行通知。 版权所有 © 2012 英特尔公司。所有权保留。 提纲 • 大数据时代的新挑戓 • 大数据时代的Intel0 码力 | 36 页 | 2.50 MB | 1 年前3
共 4 条
- 1













