数据重分布 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve 分布式存储设计

Curve 分布式存储设计程义 — Curve Maintainer XAgenda 第二第三第四第一 Curve的由来 Curve的设计目标 Curve块存储和 Curve文件存储 Curve社区Curve的由来 1. 代码复杂/代码量大 2. 运维难度高 3. 无法满足高的性能需求Curve的设计目标 1. Curve云原生软件定义存储 2. Curve块存储高性能，易运维，云原生Curve块存储 1. 高性能分布式共享数据库场景 2. Curve块存储提供底层分布式共享存储 3. Polardb for PostgreSQL提供上层高性能数据库服务 4. 性能测试 1. benchmarkSQL 每分钟事务数提升39% 2. pgbench 延迟降低21% TPS提升26% 研究现状Curve块存储 1. 分布式块存储服务 2. KVM块存储服务在集群的存储节点 3. chunkserver按照故障域分组 4. copyset中的节点属于不同的故障域数据组织Curve块存储 IO流程Curve块存储 1. chunkserver负责数据的存储 2. RAFT协议保持数据的一致性 3. chunkfile pool降低元数据开销 Chunkserver服务Curve块存储性能设计Curve块存储在线升级设计 1.

0 码力 | 20 页 | 4.13 MB | 6 月前
3
Curve元数据节点高可用

© XXX Page 1 of 30 Curve元数据节点高可用© XXX Page 2 of 30 1. 需求 2. 技术选型 3. etcd clientv3的concurrency介绍 3.1 etcd clientV3的concurrency模块构成 3.2 Campaign的流程 3.2.1 代码流程说明 3.2.2 举例说明Campagin流程 3.3 Observe的流程 Etcd集群与MDS1(当前leader)出现网络分区 4.2.5.1 事件一先发生 4.2.5.2 事件二先发生 4.2.6 异常情况4：Etcd集群的follower节点异常 4.2.7 各情况汇总 1. 需求 mds是元数据节点，负责空间分配，集群状态监控，集群节点间的资源均衡等，mds故障可能会导致client端无法写入。因此，mds需要做高可用。满足多个mds, 但同时只有一个mds节点提供服务，称该提供服务的 sql，用于存储集群拓扑的相关信息；二是etcd，用于存储文件的元数据信息。而etcd可以用于实现mds高可用，没必要引入其他组件。使用etcd实现元数据节点的leader主要依赖于它的两个核心机制: TTL和CAS。TTL(time to live)指的是给一个key设置一个有效期，到期后key会被自动删掉。这在很多分布式锁的实现上都会用到，可以保证锁的实时性和有效性。CAS(Atomic

0 码力 | 30 页 | 2.42 MB | 6 月前
3
新一代云原生分布式存储

新一代云原生分布式存储—Curve 上李小翠网易数帆存储团队分布式存储介绍 01 存储的发展 | 分布式存储的分类 | 分布式存储的要素 02 03 04 Ceph 架构简介 | 场景介绍 | 使用中的问题 Curve 架构简介 | 数据对比 | 应用情况 FAQ 答疑存储的发展互联网时代，数据大爆炸大型主机成本高单点问题扩容困难各存储设备通过网络互联各存储设备通过网络互联大规模弹性扩容底层构建在分布式存储之上云的概念成本：共用基础设施弹性：随意扩缩容速度：更快的构建发布业务底层构建在分布式存储之上云原生的概念：易用性：跨平台，超融合，弹性小型主机容量有限分布式存储的分类按照各种应用场景所需的存储接口分类对象存储文件存储块存储接口为简单的 Get、PUT、DEL 和其他扩展对指定地址空间进行随机读写传统意义的块存储：磁盘分布式存储的要素如何构建分布式文件系统？以分布式块存储为例。 •提供大容量的块设备 •可以在指定地址空间内随机读写 write(offset, len) •服务质量要求：数据不能丢、服务随时可用、弹性扩缩容要什么 •成百上千台存储节点 •磁盘故障、机器故障、网络故障概率性发生有什么分布式存储系统需要满足接口需求，并且有持续监控、错误检测、容错与自动恢复的能力

0 码力 | 29 页 | 2.46 MB | 6 月前
3
Curve文件系统元数据管理

of 24 Curve文件系统元数据管理（已实现）© XXX Page 2 of 24 1. 2. 3. 4. Inode 1、设计一个分布式文件系统需要考虑的点： 2、其他文件系统的调研总结 3、各内存结构体 4、curve文件系统的元数据内存组织 4.1 inode定义： 4.2 dentry的定义： 4.3 内存组织 5 元数据分片 5.1 分片方式一：in 6、curve文件系统的多文件系统的设计 1、设计一个分布式文件系统需要考虑的点：文件系统的元数据是否全缓存？元数据持久化在单独的元数据服务器上？在磁盘上？在volume上？ inode+dentry方式？当前curve块存储的kv方式？是否有单独的元数据管理服务器？ 2、其他文件系统的调研总结 fs 中心化元数据内存namespace元数据内存空间分配元数据元数据持久化元数据扩展小文件优化空间管理单位空间管理单位数据持久化其他© XXX Page 3 of 24 moosefs（mfs）有元数据服务器全内存 fsnode → hashtable(inode id) fsedge → hashtable (parent inode + name) 全内存 chunk → hashtable(chunk id) log + dump record 差否 chunk 链式多副本

0 码力 | 24 页 | 204.67 KB | 6 月前
3
Curve支持S3 数据缓存方案

© XXX Page 1 of 9 Curve支持S3 数据缓存方案© XXX Page 2 of 9 版本时间修改者修改内容 1.0 2021/8/18 胡遥初稿背景整体设计元数据采用2层索引对象名设计读写缓存分离缓存层级对外接口后台刷数据线程本地磁盘缓存关键数据结构详细设计 Write流程 Read流程 ReleaseCache流程基于s3的daemon版本基于基本的性能测试发现性能非常差。具体数据如下：通过日志初步分析有2点原因© XXX Page 3 of 9 1.append接口目前采用先从s3 get，在内存中合并完后再put的方式，对s3操作过多 2.对于4k 小io每次都要和s3交互，导致性能非常差。因此需要通过Cache模块解决以上2个问题。整体设计整个dataCache的设计思路，在写场景下能将数据尽可能的合并后flush到s3 读场景上，能够预读1个block大小，减少顺序读对于底层s3的访问频次。从这个思路上该缓存方案主要针对的场景是顺序写和顺序读，而对于随机写和随机读来说也会有一定性能提升，但效果可能不会太好。元数据采用2层索引由于chunk大小是固定的（默认64M），所以Inode中采用map s3ChunkInfoMap用于保存对象存储的位置信息。采用2

0 码力 | 9 页 | 179.72 KB | 6 月前
3
Curve文件系统元数据Proto（接口定义）

© XXX Page 1 of 15 curve文件系统元数据proto（代码接口定义，已实现）© XXX Page 2 of 15 1、代码结构和代码目录 curve文件系统是相对于curve块设备比较独立的一块，在当前curve项目的目录下，增加一个一级目录curvefs，curvefs下有自己独立的proto\src\test。 2、文件系统proto定义 2.1 mds.proto

0 码力 | 15 页 | 80.33 KB | 6 月前
3
CurveFS S3数据整理(合并碎片、清理冗余)

1 of 3 curvefs s3数据整理(合并碎片、清理冗余)© XXX Page 2 of 3 1. 2. 3. 1. 2. 3. 4. 5. 6. 1. 2. 背景只考虑单客户端, 单metaserver 为了解决的问题: 客户端在对一个文件的某个部分多次写入后, 同一个chunk会产生很多版本数据; 而客户端在读的时候, 会需要对这些chunk进行筛选和构建会需要对这些chunk进行筛选和构建, 得到有效的部分, 越是散乱的状态, 就越需要发送更多次读请求至s3. 最后导致无效旧数据的堆积和读请求性能的下降, 所以需要在合适的时候进行重叠元数据和数据的合并原则是尽力而为, 并不能做到完美方案基于一下3个基础的数据结构, 2层索引 s3chuninfolist[index] = [s3chunkinfo(s)] s3chunkinfo { } s3 object命名: chunkid_version_index (index为obj在chunk内的index) 执行步骤数据整理作为一个后台服务(线程池), 运行于metaserver, 遍历metaserver的inode进行数据整理的尝试, 入队inodekey, 如果是已有inode任务, enqueue直接返回, 不入队任务开始执行, 尝试根据inodekey获取inode信息

0 码力 | 3 页 | 101.58 KB | 6 月前
3
Curve文件系统元数据持久化方案设计

© XXX Page 1 of 12 元数据持久化© XXX Page 2 of 12 前言 Raft Log Raft Snapshot 持久化文件 key_value_pairs 其他说明实现 1、inode、entry 的编码 2、KVStore Q&A 单靠 redis 的 AOF 机制能否保证数据不丢失? redis 的高可用、高可扩方案？ redis + muliraft 存在的问题？ redis 改造 vs 自己实现? redis 中哈希表实现的优点？参考前言根据之前讨论的结果，元数据节点的架构如下图所示，这里涉及到两部分需要持久化/编码的内容： Raft Log：记录 operator log Raft Snapshot：将内存中的数据结构以特定格式 dump 到文件进行持久化© XXX Page 3 of 12 Raft Log +------+- -----------+---------+ 持久化文件字段字节数说明 CURVEFS 7 magic number（常量字符 "CURVEFS"），用于标识该文件为 curvefs 元数据持久化文件 version 4 文件版本号（当文件格式变化时，可以 100% 向后兼容加载旧版持久化文件） size 8 键值对数量 key_value_pairs / 键值对（当 size 为

0 码力 | 12 页 | 384.47 KB | 6 月前
3
MySQL 兼容性可以做到什么程度

做生态兼容好的 MySQL 兼容性可以做到什么程度胡中泉（舟济）阿里云数据库解决方案架构师为什么要兼容 MySQL 01 The longer you look back, the farther you can look forward.也从阿里巴巴的“去IOE”运动说起业务驱动下的分布式技术实践之路 5月17日，支付宝最后一台小型机下线标志去IOE落下帷幕首次双十一大考卡顿半分钟后稳中间件只是起点，PolarDB-X 可能是离终点最近的那个对近十年的探索以及五年的上云经验进行重新思考，面向未来设从运维视角实现计算存储一体化计新架构产品形态基于MySQL XA实现分布式事务基于外部组件进行扩容支持扩容分布式事务一体化尝试 Review 2.0 开源 2016 2017 2018 2019 2020 2021 2021年10月20日，云栖大会宣布开源 2020年5月，PolarDB-X duck.业务系统上游 Single Source of Truth 问题背景数据孤岛怎么办？下游MySQL 怎么做 Binlog Maxwell DebeziumPolarDB-X 完全兼容 MySQL Binlog 可行性 • 多节点产生多个增量事件队列 • 不同队列中事件之间的顺序 • 分布式事务完整性 • DDL 引起的多 Schema 版本问题 • 扩缩容引起的队列增减

0 码力 | 18 页 | 3.02 MB | 6 月前
3
Curve核心组件之chunkserver

Curve核心组件之ChunkServer 查日苏CURVE CURVE是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟存储底座 • 可扩展存储场景：块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储，对接 openstack 和 k8s 网易内部线上无故障稳定运行500+天 • 已开源 • github主页： https://opencurve.github ChunkServer核心模块新版本ChunkServer性能优化CURVE基本架构 • 元数据节点 MDS • 管理和存储元数据信息 • 感知集群状态，合理调度 • 数据节点 Chunkserver • 数据存储 • 副本一致性，raft • 客户端 Client • 对元数据增删改查 • 对数据增删改查 • 快照克隆服务器CURVE基本架构 01 02 03 04 ChunkServer架构 ChunkServer架构 ChunkServer核心模块新版本ChunkServer性能优化Curve ChunkServer是数据节点，对外提供数据读写和节点管理功能，底层基于ext4文件系统，操作实际的磁盘。 ChunkServer架构ChunkServer通过RPC网络层与client， MDS，其他ChunkServer通信。RPC 网络层是由brpc框架去完成的。包括读写socket，rpc协议解析等。

0 码力 | 29 页 | 1.61 MB | 6 月前
3

共 35 条前往

页

分类

语言

格式