CurveFS方案设计扩展性/可用性/可靠性 依赖于第三方kv存储,目前是etcd CurveFS 单机内存元数据设计 类似 fastcfs 和 moosefs 的元数据设计方式,采用通用的 dentry,inode 两层映射关系,所有的元数据都缓存在内存中,持久化在 binlog 文件中,binlog采用定期dump的方式删除。基于这种方式的开发: a. 性能 加载:数据量较大的情况下,元数据节点启动较慢;但是元数据使用 在内存中也缓存了全部元数据信息 master-slave 多副本数据 CurveFS 分布式元数据设计 类似 chubaofs 的元数据设计方式,同样是采用 dentry,inode 两层映射关系,所有的元数据都缓存在内存中。元数据是分片的,使用 multi-raft 持久化元数据以及保证多副本数据一致性。基于这种方式开发: a. 性能 由于元数据分片,获取元数据需要跟多个节点进 近期要能支持mysql所要接口,长期需要支持通用文件接口。 kv 虽然改造简单,短期内对基本功能的支持没有问题,但这个架构不利于 Curve 长期的规划和演进,因此选择通用的 dentry,inode 两层映射的元数据结构。对于 fs© XXX Page 4 of 14 的场景,元数据的量比块存储场景会多很多,长期看元数据节点的设计也是需要满足高可用、高可扩、高可靠的。 因此对元数据节点的要求总结为:高可用、高可扩、高可靠、高性能。0 码力 | 14 页 | 619.32 KB | 6 月前3
Curve核心组件之snapshotcloneSnapshotCloneMetaStore: • CurveClient封装了Client接口,负责与MDS和ChunkServer交互。 CurveClient: • 负责管理快照和克隆源卷的引用计数。 SnapshotRef & CloneRef:快照总体流程 • 1.用户发起快照,生成快照任务,并持久化到 etcd,开始执行快照任务。 • 2.在curve中创建内部快照,并返回快照信息, fileInfo 快照目的卷的卷名等信息 • chunkMap 快照chunk映射表 MetaObject: • 保存完整的chunk数据,大小为一个 Chunk的大小,即16MB DataObject: • 打快照时读取当前目标卷的所有快照的全 部metaObject • 根据本快照的chunk映射表,判断当前的 快照chunk是否需要转储 增量转储原理:快照在CHUNKSERVER上的数据组织 chunkserver接口创建CloneChunk。 • 5. 更新克隆卷状态为metaInstalled。 • 6. 发起ChunkServer数据拷贝 • 7. ChunkServer从克隆源拷贝数据。 • 8. 将卷从临时卷rename为克隆目标卷名。 • 9. 更新克隆卷状态为Cloned。 克隆流程: chunk chunk chunk chunkserver meta0 码力 | 23 页 | 1.32 MB | 6 月前3
Curve核心组件之Client - 网易数帆、Write/Read 控制面:Create/Delete、Open/Close、Rename等 IO处理:转换、拆分、合并 元数据获取及缓存 逻辑chunk与物理chunk映射关系 物理chunk所属的复制组(copyset) 复制组所在的chunkserver列表 复制组的leader信息 Failover支持 MDS:只有主MDS才会监听端口 IO流程 子请求由哪个chunkserver处理,依赖以 下信息: 逻辑chunk与物理chunk映射关系 物理chunk所属的复制组(copyset) 复制组所在的chunkserver列表 复制组的leader信息CLIENT IO流程 逻辑chunk与物理chunk映射关系 物理chunk所属的复制组(copyset) 由MDS分配并持久化,client拆分用户请 请 求时会获取并进行缓存 为了减少元数据量,MDS一次会连续分配 1G范围内的映射关系,称为SegmentCLIENT IO流程 复制组所在的chunkserver列表 chunkserver心跳定期上报给MDS 通过MDSClient向MDS获取 复制组的leader信息 复制组之间通过raft维护 通过CliClient向Chunkserver获取 这两种信息client也会进行缓存0 码力 | 27 页 | 1.57 MB | 6 月前3
Curve文件系统元数据管理4、client给server2发送请求: parentid 200 + name "E",查询不到 生成记录?inode 300,按照原文件/A/B,应该在A的inodeid映射的机器上;按照硬链接/B/E,应该在B的inodeid映射的机器上。 生成记录 200 + E → 300 5、client给server1发送请求: 修改记录 "C"的inode link++ 这里涉及到增加dentr 0的inode信息。 遍历所有的metaserver 二、通过一个额外的缓存,缓存inode id和partition的映射关系。这个缓存可以在挂载文件系统的时候缓存在client端。不缓存具体的Inode的结构体,仅仅缓存(inodeid, partitionid)的映射,如果inodeid为uint64类型,partitionid为uint64_t类型,那么一条记录需要16字节。一个文件系统按照10亿的元数据统计,10亿0 码力 | 24 页 | 204.67 KB | 6 月前3
NJSD eBPF 技术文档 - 0924版本框架优化的要点 • 共享inode cache • 共享data cache的映射 • GETATTR流程 • ⽂件读取流程 • 相关⼯作 • extFUSE • google android12 passthrough什么是eBPF • ebpf是不同环境下内核配置, 调试,监控⼯具 • map映射 • 验证器 • Hook • Helper api配置TCP0 码力 | 20 页 | 7.40 MB | 6 月前3
CurveFS Copyset与FS对应关系curve块设备的元数据管理,在分配数据的时候,offset一开始就是知道的,这是和curvefs分配很大的一个不同点。 假设已经确定了一个分片规则,那么根据这个分片规则,一定可以找到两个函数 inodeid到copyset的映射:copysetid = getPartition(inodeid) copyset管理的inode的范围:inoderange = getInodeRange(copyset)© XXX Page (fsid + inodeid << shift ) % totalCopysetNum 如果采用hash方案,扩容按照pool扩容,避免hash带来的数据迁移。用这种方式简化处理,改变hash映射方式带来的数据迁移,在技术实现上难度应该很大,暂时不考虑。 还有一种方式是chubaofs方案,在文件系统初始化的时候,初始化少数copyset,然后copyset的处理能力有限, ,这个copy0 码力 | 19 页 | 383.29 KB | 6 月前3
Curve 分布式存储设计2. zone故障隔离的基本单元 3. server表示物理服务器 4. chunkserver物理服务器上 的服务实例 拓扑结构Curve块存储 1. Curve块存储将虚拟块设备 映射到文件 2. 每个文件包含的chunk分散 在集群的存储节点 3. chunkserver按照故障域分组 4. copyset中的节点属于不同的 故障域 数据组织Curve块存储 IO流程Curve块存储0 码力 | 20 页 | 4.13 MB | 6 月前3
新一代云原生分布式存储72 (DiskNums) (0, 4MB) 163342856 2 58 (4MB, 8MB) 759463473 9 3 (8MB, 16MB) 342165799 5 51 • 映射信息无需记录,直接通过计算获得 • 伪随机算法在服务器数量特别大的时候接近均衡 • 节点故障(DiskNums)变更会涉及其他数据的迁移 有中心节点:持久化对应关系 • 需要将数据分布(元数据)持久化0 码力 | 29 页 | 2.46 MB | 6 月前3
Open Flags 调研: 不更新Inode中的last access time(进程uid=文件uid或者进程在它的user namespace有CAP_FOWNER, 而文件的uid在这个namespace中有一个映射)。 O_NOATIME : 在进程执行exec系统调用时关闭此打开的文件描述符,防止父进程泄露打开的文件给子进程。 O_CLOEXEC O_PATH: 使用 O_PATH 将不会真正打开一个文0 码力 | 23 页 | 524.47 KB | 6 月前3
MySQL 兼容性可以做到什么程度支持事务复制、行级复制 已验证工具或系统 • MySQL/MariaDB • PolarDB-X 性能指标 • 1.5w rps • 1s 延迟* 下一步 • 多流 • GTID事务并行复制 • 更多源端完全兼容 MySQL 吗 03 History doesn't repeat itself but it often rhymes.Short Answer:No and NO ONE Does进入0 码力 | 18 页 | 3.02 MB | 6 月前3
共 10 条
- 1













