Hadoop 迁移到阿里云MaxCompute 技术方案结构化数据和非结构数据数据存 储,我们也常称之为数据湖。如 HDFS、对象存储服务等。 批处理:由于大数据场景必须处理大规模的数据集,批处理往往需要从数据存储中读取大量 数据进 行长 时间 处理 分析 ,并将 处理 后的 数据 写 入 新的 数据 对象 供后 续使 用。如 Hive、 MapReduce、Spark 等。 Alibaba Cloud MaxCompute 解决方案 内建支持的上百种机器学习算法,目前 MaxCompute 的机器学习能力由 PAI 产品进行统一提供 服务,同时 PAI 提供了深度学习框架、Notebook 开发 环境、GPU 计算资源、模型在线部署的弹性预测服务。 MaxCompute 的数据对 PAI 产品无缝集成。 存储 Pangu 阿里自研分布式存储服务,类似 HDFS。MaxCompute 对外目前只暴露表接口,不能直接访问文件系统。 议您选择部分试点业务先行进行迁移验证,待迁移验证通过后,再扩展更大的业务范围以降低迁 移风险、提高迁移质量。 5.3 阶段 3:并行测试,割接 迁移完成后,建议基于增量数据与当前系统进行并行测试,待并行一段时间后,对并行测试 结果进行对比验证,符合业务预期即可将业务全部切换至 MaxCompute 平台。 对于规模较小的系统迁移,一般迁移上线周期不超过 2 周。但更多的情况下,我们建议您 根据迁移0 码力 | 59 页 | 4.33 MB | 1 年前3
Curve核心组件之mds – 网易数帆将当前上报的 copyset 信息提交给调度模块, 获取该 copyset 上可能需要执行的任务。 • HealthyChecker: 检查集群中的 chunkserver 在当前时间点距 离上一次心跳的时间,根据这个时间差更新chunkserver状态。 Chunkserver端:chunkserver 端的心跳由两个部分组成: • ChunkServerInfo/CopySetInfo: 获取当前 server在线,正常服务。 • Unstable: chunk server一段时间没收到心跳(默认 30s),但是还没有到达offline的时间(默认 30min),chunkserver状态改为unstable状态,打 印一条warning日志。 • Offline :chunk server超过offline的时间没有收到心 跳(默认30min), chunkserver状态改为offline, chunkserver状态改为offline, 打印一条error日志。调度模块感知到offline状态, 触发chunk server的recover修复。 心跳正常 心跳正常 超过miss时间 未超过offline时间 UNSTABLE ONLINE OFFLINESCHEDULE Schedule(系统调度)是为了实现系统的自动容错和负载均衡,这两个功能是分布式 存储系统的核心问题,也是 curve 是否能上生产环境的决定因素之一。0 码力 | 23 页 | 1.74 MB | 6 月前3
共 2 条
- 1













