空间分配 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve文件系统空间分配方案

of 11 Curve文件系统空间分配方案（基于块的方案，已实现）© XXX Page 2 of 11 背景本地文件系统空间分配相关特性局部性延迟分配/Allocate-on-flush Inline file/data 空间分配整体设计空间分配流程特殊情况空间回收小文件处理并发问题文件系统扩容接口设计 RPC接口空间分配器接口背景根据，文件系统，文件系统基于当前的块进行实现，所以需要设计基于块的空间分配器，用于分配并存储文件数据。 CurveFS方案设计（总体设计，只实现了部分）本地文件系统空间分配相关特性局部性尽量分配连续的磁盘空间，存储文件的数据。这一特性主要是针对HDD进行的优化，降低磁盘寻道时间。延迟分配/Allocate-on-flush 在sync/flush之前，尽可能多的积累更多的文件数据块才进行空间分配，一方面可以提高局部性，另一方面可以降低磁盘碎片。几百字节的小文件不单独分配磁盘空间，直接把数据存放到文件的元数据中。针对上述的本地文件系统特性，Curve文件系统分配需要着重考虑。局部性虽然Curve是一个分布式文件系统，但是单个文件系统的容量可能会比较大，如果在空间分配时，不考虑局部性，inode中记录的extent数量很多，导致文件系统元数据量很大。© XXX Page 3 of 11 假如文件系统大小为1PiB，空间分配粒度为1M

0 码力 | 11 页 | 159.17 KB | 6 月前
3
CurveFS方案设计

补充元数据数据结构 2021-04-19 李小翠、吴汉卿、许超杰等补充文件空间分配，讨论与确认背景调研开源fs 性能对比可行性分析方案对比对比结论架构设计卷和文件系统元数据架构文件系统快照方案一：文件/目录级别快照方案二：文件系统快照关键点元数据设计数据结构索引设计文件空间管理开发计划及安排背景为更好的支持云原生的场景，Curve需要支；第二种方案的改动和实现相对简单，并且对于需要备份的场景也是够用的。从可解决程度和解决的必要性考虑，选择第二种方案。关键点 mds volume 文件空间管理文件系统的元数据所在的copyset分配策略（前期可以考虑都分配到同一个copyset上） metaserver inode/dentry的内存组织形式数据持久化 client curvefs 的 client 开发等信息，inode 中记录文件空间占用、文件属性等信息，通过共享 inodeID 实现数据共享。curve的文件元数据管理设计为分布式的，因此第一种通过内存实现数据共享的方式并不适用，我们选择第二种方式。具体的元数据结构设计：Curve文件系统元数据管理（已实现）索引设计© XXX Page 11 of 14 1. 2. 3. 4. 文件空间管理文件空间管要解决的问题是：一个文

0 码力 | 14 页 | 619.32 KB | 6 月前
3
CurveFS Copyset与FS对应关系

curve块设备的copyset是在空间预分配的时候就确定了，每次预分配1GB的空间，然后这1GB的空间每个chunk对应的copyset在预分配的时候已经确定。后续的读写的操作直接去对应的copyset上去进行读写。这个分配copyset方式，并不适合curvefs的元数据。这种分配方式是提前分配了一批空间，即使用户只需要写4KB数据，也一次性分配1GB的空间。而curvefs的元数据，并不能一次申请一批在client端，而是每次都需要去metaserver上去进行分配。这里需要重新考虑curvefs的copyset和fs的元数据分片的对应关系。© XXX Page 3 of 19 2、chubaofs的元数据管理 chubaofs（补充链接）的元数据也是采用的raft的方式进行管理，可以借鉴一下chubaofs的元数据的分片策略。通过分析chubaofs的源代码。chub true } return } 2.2、meta partition的管理当这个partition inode用完了怎么办？当partition管理的分片的inode id分配完了。，但是dentry可以继续。而且meta 这个partition会变成readonly状态，不再接收新的inode的申请 partition还会自动的分裂，是把volume的最后一个pa

0 码力 | 19 页 | 383.29 KB | 6 月前
3
Rust 程序设计语言简体中文版 1.85.0

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 14.3. Cargo 工作空间 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 我们将数组的值写成在方括号内，用逗号分隔的列表：文件名：src/main.rs fn main() { let a = [1, 2, 3, 4, 5]; } 当你想要在栈（stack）而不是在堆（heap）上为数据分配空间（第四章将讨论栈与堆的更多内容），或者是想要确保总是有固定数量的元素时，数组非常有用。但是数组并不如 vector 类型灵活。vector 类型是标准库提供的一个允许增长和缩小长度的类似数组的集合类型。当不的数组将包含 5 个元素，这些元素的值最初都将被设置为 3。这种写法与 let a = [3, 3, 3, 3, 3]; 效果相同，但更简洁。访问数组元素数组是可以在栈 (stack) 上分配的已知固定大小的单个内存块。可以使用索引来访问数组的元素，像这样：文件名：src/main.rs fn main() { let a = [1, 2, 3, 4, 5]; let

0 码力 | 562 页 | 3.23 MB | 22 天前
3
CurveFS Client 概要设计

init void (*init) (void *userdata, struct fuse_conn_info *conn); 根据挂载信息，从mds获取文件系统信息（或superblock），块分配器（bitmap）和root inode所在的copyset、 metaserver ip等信息去metaserver获取文件系统信息（super block），缓存到client端。 destroy set，metaserver ip等信息，然后从metaserver获取inode结构，缓存之；判断inode结构中，对应请求[off, size]位置的空间是否有分配：如果未分配或只有部分分配空间，则调用空间分配器分配空间，并根据空间分配器返回结果，修改inode结构（包括file length）; inode修改需要持久化到底层并修改本地cache；调用curve client接口，写curve卷对应[offset，len] 如果inode缓存中不存在对应的inode，则从mds获取inode所在copyset，metaserver ip等信息，然后从metaserver获取inode结构，缓存之；根据inode结构，拆分unwritten/未分配的区域与写过的区域，未写过的区域填0，其他区域继续读取根据inode结构中信息，调用curve client接口，读取对应的[offset, len]数据。（这里同样要考虑4k对齐的问题，如果不对

0 码力 | 11 页 | 487.92 KB | 6 月前
3
Raft在Curve存储中的工程实践

共同一致（joint consensus） • 集群先切换到一个过渡的配置(old + new)，一旦共同一致已经被提交，系统切换到新的配置(new)。RAFT协议简介日志压缩 • 日志会不断增长，占用空间 • 采用快照的方式压缩日志 • 在某个时间点，整个系统的状态都以快照的形式写入到稳定的持久化存储中 • 完成一次快照之后，删除时间点之前的所有日志和快照。BRAFT简介 • raft协 mds：保存元数据，包括topo信息、文件系统信息、元数据分布信息等，持久化到etcd中。 • metaserver：采用raft协议3副本的方式保存文件文件的元数据，包括inode，dentry，文件的空间分配信息。 • 数据集群：采用外部存储，S3或者Curve块存储，保存写入文件的数据。Curve文件存储RAFT应用基于rocksdb的存储引擎 • 要求存储的元数据的大小不超过内存的大小问题背景： raft的快照需要定期打快照，用来清理log。对于Curve块存储场景，系统状态就是Chunk当前的数据。如果把所有chunk 拷贝一遍打快照，会出现两个问题： 1. 每次快照，空间上要多出1倍，空间浪费严重。 2. Curve块存储快照间隔默认30 分钟一次，每次快照会产生大量的数据拷贝，占用chunkserver的处理能力，对磁盘造成很大压力，影响正常IO。解决思路： ch

0 码力 | 29 页 | 2.20 MB | 6 月前
3
Curve设计要点

感知具体格式提供不同文件类型支撑不同上层应用数据组织形式 • PageFile/AppendFile/AppendECFile • Segment • 逻辑概念，空间分配的基本单元（减少元数据数量） • 多个连续地址空间chunk（物理文件）的聚合数据组织形式 • CopySet • 逻辑概念 • 减少元数据数量 • 数据放置的基本单元 • 提高数据可靠性 • 包含多个chunk Storage」数据组织形式 • PageFile • 地址空间到—>chunk: 1 : N chunk有先后关系 • 创建时指定大小，lazy分配chunk • 提供4kb随机读写能力数据组织形式 • PageFile • 地址空间到—>chunk: 1 : N chunk有先后关系 • 创建时指定大小，lazy分配chunk • 提供4kb随机读写能力 • 支撑块设备应用场景 AppendFile • 地址空间到—>chunk: 1 : 1 • 采用append的方式写入数据组织形式 • AppendFile • 地址空间到—>chunk: 1 : 1 • 采用append的方式写入 • 支撑多副本对象存储通过文件/特殊目录隔离挖洞即时回收单独的元信息的存储方案数据组织形式 • AppendECFile • 地址空间到—>chunk: 1 : 1

0 码力 | 35 页 | 2.03 MB | 6 月前
3
Curve核心组件之snapshotclone

久化任务元数据到etcd，开始执行克隆任务。 • 2. 调用mds接口创建clone卷信息，该 clone卷是个临时卷，位于/clone目录下。 • 3. 调用mds接口为目的卷分配空间。 • 4. 根据目的卷的分配信息，调用 chunkserver接口创建CloneChunk。 • 5. 更新克隆卷状态为metaInstalled。 • 6. 发起ChunkServer数据拷贝 • 7 chunk chunkserver meta object data object data object S3 Snap Task etcd MDS client 2.创建克隆卷 3.分配卷空间 7.拷贝数据 datastore metastore http service clone Task user 快照、克隆元数据 SnapshotCloneServer 1.发起克隆 Lazy克隆不直接分配chunk，而是等到client来写时才分配chunk 额外接口：不进行数据复制，而是提供额外的Flatten接口，完成数据复制。适用场景：适用于从镜像快速创建云主机场景非Lazy克隆较慢，分钟级： Cloned状态可用，即完成整个数据克隆，才从临时目录rename，用户才可见。无Lazy Alloc chunk：安装元数据时即分配好chunk。

0 码力 | 23 页 | 1.32 MB | 6 月前
3
CurveFS对接S3方案设计

S3-allocator模块：负责分配s3-object唯一标识。© XXX Page 3 of 11 整体思路 curvefs对接s3和对接volume主要的区别在于数据持久化和空间分配部分，而元数据的操作尽量保持统一。因此我们涉及到修改client的流程主要在read/write/flush，以及空间分配申请（s3不需要释放空间，可直接删除对应s3 object）

0 码力 | 11 页 | 145.77 KB | 6 月前
3
Curve文件系统元数据管理

inode+dentry方式？当前curve块存储的kv方式？是否有单独的元数据管理服务器？ 2、其他文件系统的调研总结 fs 中心化元数据内存namespace元数据内存空间分配元数据元数据持久化元数据扩展小文件优化空间管理单位数据持久化其他© XXX Page 3 of 24 moosefs（mfs）有元数据服务器全内存 fsnode → hashtable(inode id) offset) etcd 差块设备，最小10GB segment + chunk raft 块设备的元数据管理 cephfs 3、各内存结构体时间复杂度空间复杂度特点可用实现 Btree 一个节点上保存多条数据，减少树的层次(4~5层)，方便从盘上读取数据，减少去盘上读取次数。适合在盘上和内存组织目录树。 google，https://github com/happyfish100/libfastcommon/tr ，(LGPL) ee/master/src hash table O(1)~O(n) O(n) + table 需要占用额外空间，性能和hash表的大小有关，最理想可以达到O(1)复杂度，最差O(n)复杂度。 c++ stl unordered_map moose，使用c实现 4、curve文件系统的元数据内存组织

0 码力 | 24 页 | 204.67 KB | 6 月前
3

共 26 条前往

页

分类

语言

格式