CurveFS Copyset与FS对应关系curvefs使用raft作为元数据一致性的保证。为了提高元数据的可扩展性和并发处理能力,采用元数据分片的方式管理inode和dentry的元数据。inode的分片依据是fsid + inodeid,dentry的分片依据是fsid + parentinodeid。借鉴curve块设备的设计思路,(补充copyset的设计文档在这 ),curvefs的元数据分片仍然按照的copyset的方式去管理。 curve块存储的topo 要去metaserver上去进行分配。 这里需要重新考虑curvefs的copyset和fs的元数据分片的对应关系。© XXX Page 3 of 19 2、chubaofs的元数据管理 chubaofs(补充链接)的元数据也是采用的raft的方式进行管理,可以借鉴一下chubaofs的元数据的分片策略。 通过分析chubaofs的源代码。chubaofs的用volume管理一个文件系统,每个volume有若干meta ok = true } return } 2.2、meta partition的管理 当这个partition inode用完了怎么办?当partition管理的分片的inode id分配完了。 ,但是dentry可以继续。而且meta 这个partition会变成readonly状态,不再接收新的inode的申请 partition还会自动的分裂, 是把vo0 码力 | 19 页 | 383.29 KB | 6 月前3
 Curve文件系统元数据管理2、其他文件系统的调研总结 3、各内存结构体 4、curve文件系统的元数据内存组织 4.1 inode定义: 4.2 dentry的定义: 4.3 内存组织 5 元数据分片 5.1 分片方式一:inode和dentry都按照parentid分片 5.1.1 场景分析 查找:查找/A/C。 创建:/A/C不在,创建/A/C 删除文件:删除/A/C 删除目录:删除/A rename:rename /A/C到/B/E link: hardlink:生成一个hardlink /B/E,指向文件/A/C list:遍历/A目录 5.1.2 好处 5.1.2 问题 5.2 分片方式二:Inode按照inodeid进行分片,Dentry按照parentid进行分片 rename:rename /A/C到/B/E hardlink:生成一个hardlink /B/E,指向文件/A/C 6、curve文件系统的多文件系统的设计 ::curve::common::RWLock lock_;© XXX Page 10 of 24 }; 5 元数据分片 inode和dentry的组织是按照什么方式进行组织,还有一些因素需要考虑。 是mds节点上组成一个全局的结构体,还是分目录,按照一个目录进行组织。 这需要考虑的元数据管理的分片策略。当前curve文件系统目的是提供一个通用的文件系统,能够支持海量的文件,这就需要文件系统的元数据有扩0 码力 | 24 页 | 204.67 KB | 6 月前3
 CurveFS方案设计分布式元数据设计 类似 chubaofs 的元数据设计方式,同样是采用 dentry,inode 两层映射关系,所有的元数据都缓存在内存中。元数据是分片的,使用 multi-raft 持久化元数据以及保证多副本数据一致性。基于这种方式开发: a. 性能 由于元数据分片,获取元数据需要跟多个节点进行rpc的交互,因此性能相比单机要弱一些 b. 扩展性/可用性/可靠性 使用 multi-raft, filename-dentryInfo 信息 copyset 启动的时候根据 inode 和 dentry 分别建立对应的内存结构,再回放 wal 日志完成构建 卷的元数据管理 卷的元数据中需要包含建立在该卷之上的文件系统元数据分片的位置,以便进行元数据的索引 常见的元数据操作 Create 与 mds 交互获取 inode 和 dentry 的 copyset 位置 创建 inode© XXX Page 7 of 14 inode 和 dentry 的索引设计(btree / skiplist / hashmap ?) 元数据的持久化(以 kv 的方式存入文件?存储 rocksdb ?) 元数据节点的高可用 元数据分片策略(哪些范围的元数据存储在哪些复制组上) 数据结构 在元数据设计上,扁平化元数据(用 parentID+Filename → FileInfo 表示一个文件)和分级元数据(ParentID+Filename0 码力 | 14 页 | 619.32 KB | 6 月前3
 Curve文件系统元数据持久化方案设计主要是 redis cluster + 主从复制 (或者第三方 codis + 哨兵) redis cluster/codis 主要解决扩展性的问题,它会进行分片,每个 redis 实例保存分片的 key 主从复制主要解决高可用,一个分片实例挂 2 个从实例,当主节点挂掉时,cluster/哨兵会自动将从节点升为主节点 redis + muliraft 存在的问题? 每个 raft ,需要独立的0 码力 | 12 页 | 384.47 KB | 6 月前3
 Curve核心组件之mds – 网易数帆proto): • FileInfo: 文件的信息。 • PageFileSegment: segment是给文件分配空间的最小单位 。 • PageFileChunkInfo: chunk是数据分片的最小单元。 segment 和 chunk的关系如下图:NAMESERVER Namespace的文件的目录层次关系如右图。 文件的元数据以KV的方式存储。 • Key:ParentID + “/”+ 文件列目录:列出目录下的所有文件和目 录 • 文件查找:查找一个具体的文件 • 目录重命名:对一个目录/文件进行重命名 当前元数据信息编码之后存储在 etcd 中。COPYSET Curve系统中数据分片的最小单位称之为Chunk。在大规模的存储容量下,会产生大量的Chunk,如此众多的 Chunk,会对元数据的存储、管理产生一定压力。因此引入CopySet的概念,CopySet类似于ceph的pg。CopySet0 码力 | 23 页 | 1.74 MB | 6 月前3
 新一代云原生分布式存储架构简介 | 主要亮点 | 应用情况 FAQ 答疑架构简介 — 总体架构 支持块存储、文件存储(多种存储后端)架构简介 — 概念介绍 Segment: 空间分配的基本单元 Chunk: 数据分片 Copyset: 复制组 ChunkServer: 管理一个磁盘进程架构简介 — 数据放置 Copyset的放置 Chunk的分配 • 由中心节点MDS以Scatter-width 均衡为目标进行创建0 码力 | 29 页 | 2.46 MB | 6 月前3
 BRPC与UCX集成指南●构建于uct之上,实现更加高级的功能,容易使用,但有一定开销。 ●UCT和UCP两者都有context概念,但是UCT只对一块网卡,而UCP把若干个UCT组合起 来,自动选择最快路径传输。 ●高级特性 –大消息报文的自动分片传输 –Active message, atomic operation, tag match, stream27 典型的RDMA栈28 UCX 编程的一些基本概念 ●Context –收0 码力 | 66 页 | 16.29 MB | 6 月前3
 Curve支持S3 数据缓存方案,这里要注意一点:回退的过程,如果chunkCacheMap_为空,则直接swap回退。如果chunkCacheMap_不为空,则表示F lush的过程中有新的cache加入,则需要进行合并,合并的规则是新的cache如果和老的cache有重叠则覆盖老的cache。 FsSync流程 1.循环获取FileCacheManager,执行Flush函数。© XXX Page 9 of 9 后台流程0 码力 | 9 页 | 179.72 KB | 6 月前3
 Curve质量监控与运维 - 网易数帆和混沌测试,确保master分支代码的 bug尽可能早地暴露出来。 通过这种流程,curve可以在一定 程度上保证master分支的稳定性。 master 10/33版本管理 Curve版本命名规则是x.y.z{-后缀}  x为主版本号,每次发布大版本时递增; 大版本一般半年发布一次。  y为次版本号,每次发布小版本时递增; 小版本一般1~2个月发布一次。  z为修订号,修复一批bug后递增。0 码力 | 33 页 | 2.64 MB | 6 月前3
 CurveFs 用户权限系统调研pathnames -v, --version print version and exit -h, --help this help text ACL的使用规则和原理: ACL是由一系列的Access Entry所组成的,每一条Access Entry定义了特定的类别可以对文件拥有的操作权限。Access Entry有三个组成部分:Entry tag type0 码力 | 33 页 | 732.13 KB | 6 月前3
共 10 条
- 1
 













