配置加载 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Raft在Curve存储中的工程实践

点初始状态一致的时候，保证节点之间状态一致。 raft日志复制RAFT协议简介 raft配置变更 • 配置：加入一致性算法的服务器集合。 • 集群的配置不可避免会发生变更，比如替换宕机的机器。直接配置变更可能出现双主问题 • 共同一致（joint consensus） • 集群先切换到一个过渡的配置(old + new)，一旦共同一致已经被提交，系统切换到新的配置(new)。RAFT协议简介日志压缩 • 日志会不断增长，占用空间 follower从快照恢复，只需要leader把最近一次快照涉及到chunk数据给到follower，follower再从上次快照后的日志重放即可。 • chunkserver服务重启，只需要加载快照，然后对 chunk重放快照之后日志即可。 raft snapshot • 用户数据的写入最终转化为对chunk的写入。 • raft的apply，直接在对应的chunk上写入数据。Curve文件存储RAFT应用 metaserver有两套存储引擎，基于memory和基于rocksdb。 Curve文件系统与Curve块存储的实现区别CURVE的RAFT配置变更心跳 • 通过心跳维持mds和chunkserver/metaserve的数据交互 • mds发起配置变更，copyset复制组执行 • 在curve自动容错和负载均衡时，需要进行raft配置变更。 • 自动容错保证常见异常（如坏盘、机器宕机）导

0 码力 | 29 页 | 2.20 MB | 6 月前
3
CurveFS方案设计

两层映射关系，所有的元数据都缓存在内存中，持久化在 binlog 文件中，binlog采用定期dump的方式删除。基于这种方式的开发： a. 性能加载：数据量较大的情况下，元数据节点启动较慢；但是元数据使用 master-slave 可以降低 failover 情况下的加载时间 b. 扩展性/可用性/可靠性扩展性不够，受限于单机的内存和磁盘，只能纵向扩展可用性足够，由于是 master-slave 4k，以一个20TB的盘为例： blk=4k, 需要bitmap的大小为640MB blk=64k, 需要bitmap的大小为40MB 在设计过程中，对于每个文件系统，blk应该是可以根据业务形态来配置的 bitmap重建时间？如果通过获取所有inode，重建出当前的空间分配情况，我们常见的业务形态有以下两种： ① 在AI训练等场景，文件的目录层级较少，文件数量较多，文件较小。这种情况inode

0 码力 | 14 页 | 619.32 KB | 6 月前
3
Curve文件系统元数据持久化方案设计

CURVEFS 7 magic number（常量字符 "CURVEFS"），用于标识该文件为 curvefs 元数据持久化文件 version 4 文件版本号（当文件格式变化时，可以 100% 向后兼容加载旧版持久化文件） size 8 键值对数量 key_value_pairs / 键值对（当 size 为 0 时，该字段为空） EOF 1 特殊标记常量 (0XFF)，表示内容已结束 check_sum dump) }; Q&A© XXX Page 9 of 12 单靠 redis 的 AOF 机制能否保证数据不丢失? 不能，因为 AOF 与 SET/DEL 这些操作不是同步进行的，即使刷入文件配置项开启最高级别的 always 选项，也有可能丢失一个事件循环的数据，实现如下： appendfsync // : call(...) // propagate(...) c/feedAppendOnlyFile) (2) 文件写入: 将 AOF 缓冲区的内容以 append 方式写入文件 (详见: aof.c/flushAppendOnlyFile) (3) 文件同步: 根据 appendfsync 配置选项决定文件同步频率, 该步骤与步骤 2 紧密关联 (详见: aof.c/flushAppendOnlyFile)© XXX Page 10 of 12 1. 所以，AOF 不能保证数据 100%

0 码力 | 12 页 | 384.47 KB | 6 月前
3
CurveFS Client 概要设计

aserver的ip就可以）与mds 交互，调用mds接口获取metaserver copyset 和 topo信息，这部分可先不实现（目前先支持单metaserver的情况下，可先不实现，由配置文件加载metaserver的ip）与metaserver交互, 调用meta server接口获取文件系统元数据信息，调用meta server接口获取文件和目录信息等与现有块设备client交互，调用块设备接口，对卷进行读写。除上述功能以外，还需实现文件系统创建和fuse挂载工具，功能主要是：创建文件系统，指定文件系统的名字、卷大小（多文件系统）、扩展文件系统？挂载fuse文件系统，指定挂载点、文件系统名字或fsID、server ip（可从配置文件读取）。模块划分根据上述功能模块，将client划分模块 fs cache inode cache dentry cache location cache （inode location、dentry

0 码力 | 11 页 | 487.92 KB | 6 月前
3
Curve文件系统空间分配方案

file这两个特性，需要fuse client端配合完成。空间分配整体设计分配器包括两层结构：第一层用bitmap进行表示，每个bit标识其所对应的一块空间（以4MiB为例，具体大小可配置）是否分配出去。第二层为free extent list，表示每个已分配的块，哪些仍然是空闲的（offset, length），以offset为key进行排序（这里可以用map或者btree对所有的free 空间回收时，根据回收的offset，交给对应的分配器去回收。© XXX Page 7 of 11 文件系统扩容在线扩容时，直接在新扩容的空间上，创建新的空间分配器进行空间管理。文件系统重新加载时，再将所有的空间，按照上述的策略，进行分组管理。接口设计 RPC接口当前设计是把空间分配器作为内置服务放在元数据节点，所以请求的发起方是fuse client，元数据服务器接收到请求后，

0 码力 | 11 页 | 159.17 KB | 6 月前
3
Curve文件系统元数据管理

分别从不同场景上进行分析，curve文件系统的元数据应该有以下的操作： 1、系统加载的时候，元数据从持久化介质加载。 2、业务运行过程中，元数据的增删改查。 3、系统退出的时候，元数据持久化。© XXX Page 7 of 24 场景一：系统加载的时候，元数据从持久化介质中加载。元数据进行恢复的时候，有两种情况。一种系统必须等到元数据全部加载到内存才能提供服务，这种情况下，元数据需要在内存全缓存。这能友好，但是需要消耗比较多的内存，元数据服务的扩展性受限于内存，而且在元数据服务启动的时候，需要等待一段时间加载内存。一种是元数据需要全部加载到内存，这种情况下，元数据只需要加载一小部分主要的元数据，比如说super block这种，剩下的比如inode，dentry这种，按需加载，而且使用淘汰机制，内存中不常用的元数据可以淘汰出去。这种方式，扩展性好，元数据服务的扩展性不受限于内存，服务上的内存只有几百GB，而硬盘空盘上读数据，而且在文件系统这种使用场景下，一次对文件的查找，需要在磁盘上读取多次。我们的文件系统定位是一个高性能的通用文件系统，元数据的缓存倾向于全缓存。系统加载的时候从持久化介质中进行加载，需要把一条条持久化的记录加载到内存里。实现把string转化为inode结构体，再插入内存结构中。场景二：业务运行过程中，元数据的增删改查。如果采用raft的方式对元数据持久化进行保证

0 码力 | 24 页 | 204.67 KB | 6 月前
3
Curve核心组件之mds – 网易数帆

多个pool，可以选择一个logicalPool独享一个pool。通过结合curve的用户系统，LogicalPool可以通过配置限定特定user使用的方式，实现多个租户数据物理隔离（待开发）。TOPOLOGY Topology的实际例子，右侧是topo配置文件：集群有一个物理pool，由3个zone组成，每个zone有1台server。在物理pool上，还创建了一个逻辑pool，逻辑pool使用3个zone，采用间的通信将会非常复杂，例如复制组内Primary给Secondary定期发送心跳进行探活，在256K个复制组的情况下，心跳的流量将会非常大；而引入CopySet的概念之后，可以以CopySet的粒度进行探活、配置变更，降低开销。 3. 提高数据可靠性：在数据复制组过度打散的情况下，在发生多个节点同时故障的情况下，数据的可靠性会受到影响。引入CopySet，可提高分布式存储系统中的数据持久性，降低数据丢失的概率。COPYSET 通过上述信息的定期更新，作为schedule 模块进行均衡及配置变更的依据 • 通过chunkserver定期上报copyset的copyset的epoch，检测chunkserver的copyset与mds差异，同步两者的copyset信息 • 支持配置变更功能，在心跳回复报文中下发mds发起的配置变更命令，并在后续心跳中获取配置变更进度。HEARTBEAT MDS端：mds 端的心跳主要由三个部分组成：

0 码力 | 23 页 | 1.74 MB | 6 月前
3
Curve质量监控与运维 - 网易数帆

支持python关键字，灵活定义测试  完善的测试报告  完美兼容Jenkins ci  丰富的第三方库（ssh, paramiko, request等）用例设计原则  无需绑定特定环境，“随意拉起”  配置化（测试环境、测试负载定义）  控制用例时间（考虑一些折中方案）  Case独立性  Case通用性（兼顾curve、ceph等）  Tag规范(优先级、版本、运行时间)  最大化覆盖率（打乱操作顺序、随机 Curve使用开源的监控工具Prometheus采集监控指标，大致流程为： 1. 部署监控时，Curve根据集群信息生成配置文件，指定了 Prometheus的监控目标（包括Client、MDS、 ChunkServer、Etcd、物理节点等）。 2. Prometheus依据上述配置文件，发现相应服务。 3. Prometheus server以pull的方式，定期从Curve集群中 MDS Curve运维体系Curve运维特性易部署 • 批量配置、批量部署 • 操作简单易升级 • 客户端采用CS架构，升级只需重启服务，秒级影响 • MDS与ChunkServer支持滚动升级自治 • 自动均衡 • 自动故障恢复 27/33易部署准备安装包配置用户配置SSH 免密安装 ansible 配置Ansible 执行 ansible 确认集群状态

0 码力 | 33 页 | 2.64 MB | 6 月前
3
CurveFS Copyset与FS对应关系

t的能力*copyset的个数 = 这个metanode的的处理能力。通过合理的配置copyset的能力的，应该的可以避免一个机器上，有太多的copyset。结论：coypset由fs共用。具体的使用上，每一个copyset上，有一个可以由多少fs共用的限制。这个限制通过配置文件进行配置。用户挂载时可以通过参数配置是否独占copyset。原因是，为了避免fs独占copyset 带来的copyset数量过多影响性能的问题。 node。 client在系统初始化的时候，还需要起来一个后台线程，定期的检查每一个fs的copyset的状态，如果某一个fs的可以提供分配inode能力的copyset的个数小于规定的值（来自配置文件，默认3个），就为这个fs创建一个新的copyset。© XXX Page 12 of 19© XXX Page 13 of 19 6.4、open流程© XXX Page 14 of 19© 4、实现出现异常场景下的数据恢复，副本修复的调度。 7.3 metaserver端 1、需要提供copyset的创建功能 2、由copyset负责inode和dentry的管理 3、定期向mds上报心跳，并根据心跳结果执行配置变更 metaserver 子模块拆分 metaserver service：接受rpc请求 copyset：负责对元数据的持久化，主要是一致性协议raft的处理© XXX Page 18 of

0 码力 | 19 页 | 383.29 KB | 6 月前
3
Curve元数据节点高可用

但同时只有一个mds节点提供服务，称该提供服务的mds节点为主，等待节点为备；主节点的服务挂掉之后，备节点能启动服务，尽量减小服务中断的时间。需要解决的问题就是：如何确定主备节点。 2. 技术选型提供配置共享和服务发现的系统比较多，其中最为大家熟知的就是zookeeper和etcd, 考虑当前系统中mds有两个外部依赖模块，一是mysql，用于存储集群拓扑的相关信息；二是etcd，用于存储文件的元 GetTimeout ③使用Observe监控指定前缀的key的最小版本的变化情况。© XXX Page 19 of 30 1. 2. 1. 该部分涉及到的参数说明：参数说明当前配置 ElectionTimeout etcd集群leader选举的超时时间 3s LeaseTime mds当选leader之后，与etcd集群维持租约的过期时间租约的keepalive间隔为LeaseTime/3 为LeaseTIme 说明etcd server删除Leader/MDS1的时间在[0, LeaseTime]之间这种情况会导致[0, LeaseTime]时间内没有MDS提供服务。当前配置下, LeaseTime = GetTimeout，这种情况发生的概率极低，Lease在etcd新leader当选后没有失效，get也不应该超时 4.2.4.3 MDS1、MDS2、MDS3的租约全部过期©

0 码力 | 30 页 | 2.42 MB | 6 月前
3

共 18 条前往

页

分类

语言

格式

Raft在Curve存储中的工程实践

CurveFS方案设计

Curve文件系统元数据持久化方案设计

CurveFS Client 概要设计

Curve文件系统空间分配方案

Curve文件系统元数据管理

Curve核心组件之mds – 网易数帆

Curve质量监控与运维 - 网易数帆

CurveFS Copyset与FS对应关系

Curve元数据节点高可用