持久化文件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve文件系统元数据持久化方案设计

© XXX Page 1 of 12 元数据持久化© XXX Page 2 of 12 前言 Raft Log Raft Snapshot 持久化文件 key_value_pairs 其他说明实现 1、inode、entry 的编码 2、KVStore Q&A 单靠 redis 的 AOF 机制能否保证数据不丢失? redis 的高可用、高可扩方案？ redis + muliraft redis 中哈希表实现的优点？参考前言根据之前讨论的结果，元数据节点的架构如下图所示，这里涉及到两部分需要持久化/编码的内容： Raft Log：记录 operator log Raft Snapshot：将内存中的数据结构以特定格式 dump 到文件进行持久化© XXX Page 3 of 12 Raft Log +------+------------+-----+---- -----+----------------+---------+ 持久化文件字段字节数说明 CURVEFS 7 magic number（常量字符 "CURVEFS"），用于标识该文件为 curvefs 元数据持久化文件 version 4 文件版本号（当文件格式变化时，可以 100% 向后兼容加载旧版持久化文件） size 8 键值对数量 key_value_pairs / 键值对（当

0 码力 | 12 页 | 384.47 KB | 6 月前
3
CurveFS ChunkID持久化

chunkid 持久化© XXX Page 2 of 3 1. 2. 3. 1. 2. 3. 4. 5. 6. 1. 2. 3. 4. 1. 1. 1. 2. 1. 2. 3. 4. 3. 2. 背景将原有的获取chunkid的方法从space迁入mds中，并持久化写入etcd中； ChunkIDGenerator 类对象，方法 AllocateS3Chunk 调用 ChunkIDGenerator对象的GenChunkID方法； ChunkIDGenerator 类构造函数初始化 init 函数：用于初始化或者更改 ChunkIdAllocatorImpl 的一些配置。但是这些配置不会立即生效，而是等到当前 chunkId池枯竭时才会生效。析构函数 GenChunkID 申请的chunkID池是否枯竭？

0 码力 | 3 页 | 79.38 KB | 6 月前
3
Curve文件系统元数据管理

© XXX Page 1 of 24 Curve文件系统元数据管理（已实现）© XXX Page 2 of 24 1. 2. 3. 4. Inode 1、设计一个分布式文件系统需要考虑的点： 2、其他文件系统的调研总结 3、各内存结构体 4、curve文件系统的元数据内存组织 4.1 inode定义： 4.2 dentry的定义： 4.3 内存组织 5 元数据分片照parentid分片 5.1.1 场景分析查找：查找/A/C。创建：/A/C不在，创建/A/C 删除文件：删除/A/C 删除目录：删除/A rename：rename /A/C到/B/E symbolic link： hardlink：生成一个hardlink /B/E，指向文件/A/C list：遍历/A目录 5.1.2 好处 5.1.2 问题 5.2 分片方式二：Inode按照i hardlink：生成一个hardlink /B/E，指向文件/A/C 6、curve文件系统的多文件系统的设计 1、设计一个分布式文件系统需要考虑的点：文件系统的元数据是否全缓存？元数据持久化在单独的元数据服务器上？在磁盘上？在volume上？ inode+dentry方式？当前curve块存储的kv方式？是否有单独的元数据管理服务器？ 2、其他文件系统的调研总结 fs 中心化元数据内存namespace元数据

0 码力 | 24 页 | 204.67 KB | 6 月前
3
Curve文件系统空间分配方案

11 Curve文件系统空间分配方案（基于块的方案，已实现）© XXX Page 2 of 11 背景本地文件系统空间分配相关特性局部性延迟分配/Allocate-on-flush Inline file/data 空间分配整体设计空间分配流程特殊情况空间回收小文件处理并发问题文件系统扩容接口设计 RPC接口空间分配器接口背景根据，文件系统基于当前的，文件系统基于当前的块进行实现，所以需要设计基于块的空间分配器，用于分配并存储文件数据。 CurveFS方案设计（总体设计，只实现了部分）本地文件系统空间分配相关特性局部性尽量分配连续的磁盘空间，存储文件的数据。这一特性主要是针对HDD进行的优化，降低磁盘寻道时间。延迟分配/Allocate-on-flush 在sync/flush之前，尽可能多的积累更多的文件数据块才进行空间分配，一方面可以提高局部性，另一方面可以降低磁盘碎片。 file/data 几百字节的小文件不单独分配磁盘空间，直接把数据存放到文件的元数据中。针对上述的本地文件系统特性，Curve文件系统分配需要着重考虑。局部性虽然Curve是一个分布式文件系统，但是单个文件系统的容量可能会比较大，如果在空间分配时，不考虑局部性，inode中记录的extent数量很多，导致文件系统元数据量很大。© XXX Page 3 of 11 假如文件系统大小为1PiB，

0 码力 | 11 页 | 159.17 KB | 6 月前
3
curvefs client删除文件和目录功能设计

© XXX Page 1 of 15 curvefs client 删除文件和目录功能设计© XXX Page 2 of 15 背景相关调研 moosefs chubaofs 方案设计思考 1.Trash机制是实现1个(类似chubaofs)，还是2个（类似moosefs）？ 2. Trash放在哪里？ 3. 是否需要做session机制（在metaserver打开），来维护inode的打开情况？ ret; } 存在两个问题: 一是删除时nlink字段未考虑：文件的nlink用于实现hard link。 hard link使用nlink字段表示文件的link的引用计数，第一次创建文件是nlink字段为1。每创建一个新的指向该文件的hard link时,nlink字段+1，每删除一个hard link或指向的原文件时，nlink字段-1。© XXX Page 4 of 15 当nl 删除inode。目录的nlink字段与文件的nlink字段不同，，并且在目录下，，删除目录nlink相应的减1。目录的nlink字段初始值为2 每创建一个新目录，nlink字段也会+1 目录不支持硬链接。二是删除时lookup count未考虑： lookup count 指的是文件的访问计数。当文件/目录被打开时，，该文件/目录仍然可以被打开的进程访问，不会造成崩溃或报错，我们的curvefs也需要实现

0 码力 | 15 页 | 325.42 KB | 6 月前
3
Curve文件系统元数据Proto（接口定义）

XXX Page 1 of 15 curve文件系统元数据proto（代码接口定义，已实现）© XXX Page 2 of 15 1、代码结构和代码目录 curve文件系统是相对于curve块设备比较独立的一块，在当前curve项目的目录下，增加一个一级目录curvefs，curvefs下有自己独立的proto\src\test。 2、文件系统proto定义 2.1 mds.proto

0 码力 | 15 页 | 80.33 KB | 6 月前
3
Raft在Curve存储中的工程实践

分布式存储系统，支持块存储和文件存储 2018~2021 Curve块存储 2021~2022 Curve文件存储 • 基于Openstack构建云计算平台 • 底层存储使用Ceph块存储 • 稳定性挑战 • 算力平台kubernetes的迅速发展 • AI/大数据业务的快速增长 • 存储使用Ceph文件存储/HDFS • 成本/性能挑战 Curve块存储和文件存储均采用raft协议整体架构对接Kubernetes为其提供RWO、RWX等类型的持久化存储卷 • 对接PolarFS作为云原生数据库的高性能存储底座，完美支持云原生数据库的存算分离架构 • Curve作为云存储中间件使用S3兼容的对象存储作为数据存储引擎，为公有云用户提供高性价比的共享文件存储 • 支持在物理机上挂载使用块设备或FUSE文件系统开源社区社区运营生态共建开源共建源码兜底致已经被提交，系统切换到新的配置(new)。RAFT协议简介日志压缩 • 日志会不断增长，占用空间 • 采用快照的方式压缩日志 • 在某个时间点，整个系统的状态都以快照的形式写入到稳定的持久化存储中 • 完成一次快照之后，删除时间点之前的所有日志和快照。BRAFT简介 • raft协议提出之后，涌现出了非常多的实现，比如etcd，braft，tikv等。 • braft是raft

0 码力 | 29 页 | 2.20 MB | 6 月前
3
CurveFS方案设计

李小翠、吴汉卿、许超杰等补充文件空间分配，讨论与确认背景调研开源fs 性能对比可行性分析方案对比对比结论架构设计卷和文件系统元数据架构文件系统快照方案一：文件/目录级别快照方案二：文件系统快照关键点元数据设计数据结构索引设计文件空间管理开发计划及安排背景为更好的支持云原生的场景，Curve需要支持高性能通用文件系统，其中高性能主要是适配云原生数据库的场景。当前Curve是实现了块存储，向上提供块设备服务，CurveFS会基于此实现。第一阶段的目标是实现满足数据库场景的文件接口。调研开源fs 当前对已有的开源分布式文件系统进行了调研，主要包括系统架构，元数据内存结构，元数据持久化，调研文档如下： chubaofs: ChubaoFS© XXX Page 3 of 14 1. 2. 3. moosefs: com/team/km_curve/article/29140 cephfs: https://kms.netease.com/team/km_curve/article/27909 性能对比并对以上文件系统在相同环境进行了元数据节点性能测试：。测试结果c开发的moosefs和fastcfs元数据性能远优于go开发的chubaofs和c开发的cephfs，理论上分析这个结果是合理的，分布式的元数据设

0 码力 | 14 页 | 619.32 KB | 6 月前
3
CurveFS S3本地缓存盘方案

S3模块接收到写入后先写入写内存缓存页，如果满足持久化的条件后，那么则准备持久化。如果未配置本地硬盘作为写缓存，那么直接持久化到远端的对象存储；如果配置了本地硬盘作为写缓存，那么则尝试先写入本地硬盘写缓存目录。写本地硬盘缓存目录之前先判断缓存目录容量是否已达到阈值，如果已经达到阈值，那么则直接写入到远端对象存储；否则，则写入到本地硬盘写缓存目录中。文件写入本地硬盘写缓存目录后，从本地硬盘读目录© XXX Page 4 of 9 做一个硬链接链接到该文件。本次io在本地硬盘写入好之后，异步上传模块会适时把本地硬盘写缓存目录中的文件上传到远端对象存储集群，上传成功后，删除本地写缓存目录中的对应文件。同时，缓存清理模块会定时检查本地硬盘缓存目录容量情况，如果容量已经达到阈值了，则进行文件的清理工作。另外，异常管理模块处理客户端挂掉后的文件重新上传问题。主要数据结构定义 class 借用linux本地文件系统进行管理，存储进本地硬盘的内容以文件的形式来表现。配置一个目录用于本地硬盘的文件管理，对作为缓存盘的本地硬盘进行格式化并挂载到该目录(如果没有缓存盘，那一般而言就是系统盘本身了)。本地缓存盘的文件内容表示本地缓存盘存放的文件即是存储到对象存储中的对象。写缓存如何作为读缓存利用除了写缓存目录，另外引入读缓存目录；当写缓存目录中有新文件加入时，则对该文件做硬链接到读缓存目录。

0 码力 | 9 页 | 150.46 KB | 6 月前
3
CurveFS Client 概要设计

目前需细化Client端设计 CurveFS方案设计（总体设计，只实现了部分）概述 CurveFS client 向上提供两层接口，分别是© XXX Page 3 of 11 对接fuse，提供通用文件系统接口。对于fuse接口，先前进行了一些调研，见FUSE调研提供lib库，提供对接分布式数据库接口，这一部分，可参考polarfs的接口，如下图所示。根据讨论，我们首先对接fuse的lowlevel 根据挂载信息，从mds获取文件系统信息（或superblock），块分配器（bitmap）和root inode所在的copyset、 metaserver ip等信息去metaserver获取文件系统信息（super block），缓存到client端。 destroy void (*destroy) (void *userdata); 清理init缓存的文件系统信息。 lookup 判断inode结构中，对应请求[off, size]位置的空间是否有分配：如果未分配或只有部分分配空间，则调用空间分配器分配空间，并根据空间分配器返回结果，修改inode结构（包括file length）; inode修改需要持久化到底层并修改本地cache；调用curve client接口，写curve卷对应[offset，len] 数据。（这里涉及到一个问题，是否从fuse下来的请求是4k对齐的，如果不是，那么这里还需要修改为read

0 码力 | 11 页 | 487.92 KB | 6 月前
3

共 30 条前往

页

分类

语言

格式

Curve文件系统元数据持久化方案设计

CurveFS ChunkID持久化

Curve文件系统元数据管理

Curve文件系统空间分配方案

curvefs client删除文件和目录功能设计

Curve文件系统元数据Proto（接口定义）

Raft在Curve存储中的工程实践

CurveFS方案设计

CurveFS S3本地缓存盘方案

CurveFS Client 概要设计