函数与过程 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

BRPC与UCX集成指南

1 用UCX实现BRPC对RDMA的支持徐逸锋2 BRPC简介 ●BRPC是Curve的基础通讯框架 ●支持远程过程调用 –C++ –TCP传输 –bthread协程(m:n调度，减少基于内核的下文切换，减少cache miss) ●多协议支持 –baidu_std,http,grpc… ●protobuf3 BRPC简介 ●Client/Server架构 ●使用Protobuf定义协议文件 ●提供监视一个fd是否可读写，并调用对应socket对象的成员函数1314 Socket 输入事件处理15 Socket options ●是创建socket的参数 ●主要成员: –fd 是socket文件句柄 –void (*on_edge_triggered_events)(Socket*) ●可读事件的回调函数16 Server创建Socket Listener 把系统调用创建的listen –收集机器资源（内存，网卡等)，在应用的各个部分共享 ●Worker –完成ucx的功能，可以在应用程序中调用的函数（不是单独执行的线程） ●Listener –接收连接请求 ●Ep –连接对象，在ep上请求发送和接收29 UCP 消息接口类型 ●Active message –速度最快，被brpc使用作为消息传递 –消息通过回调函数接收 –消息异步发送 ●Tag –MPI使用 ●Stream –官方不推荐30

0 码力 | 66 页 | 16.29 MB | 6 月前
3
CurveFS Copyset与FS对应关系

© XXX Page 1 of 19 curvefs copyset与fs对应关系© XXX Page 2 of 19 版本时间修改者修改内容 1.0 2021/7/23 陈威初稿 1.1 2021/8/4 陈威根据评审意见修改 1.2 2021/8/9 陈威增加详细设计 1、背景 2、chubaofs的元数据管理 2.1、meta partition的创建 2.2、meta y和disk usage来选的，通常选择内存和disk使用率最低的节点。并去对应的meta node上去创建对应的meta partition。如何选择partition的host，通过这个函数去选择。 func (c *Cluster) (excludeZone , excludeNodeSets [] , excludeHosts [] , replicaNum , crossZone uint64 string int bool string [] , peers []proto.Peer, err ) string error metanode是否能够创建copyset，由这个函数判断。有这些判断条件： 1、metaNode的存活状态 2、metaNode的内存使用情况 3、metaNode的磁盘使用情况© XXX Page 4 of 19 4、metaNode上的partition的个数

0 码力 | 19 页 | 383.29 KB | 6 月前
3
Curve质量监控与运维 - 网易数帆

C u r v e 质量、监控与运维秦亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等多种场景自研的分布式存储系统：  高性能、低延迟  当前实现了高性能块存储，对接OpenStack和 K8s  网易内部线上无故障稳定运行近两年  已完整开源 Curve监控体系 Curve运维体系软件质量软件质量的定义是：软件与明确地和隐含地定义的需求相一致的程度。为了确保最终交付的软件满足需求，必须将质量控制贯穿于设计、开发到测试的整个流程中。设计  设计流程  文档规范开发  编码规范与提交流程  版本管理测试  测试方法论  CI与异常测试 6/33设计流程 Curve团队采用敏捷开发模式，负责人在制定迭代计划时，确认哪些任务需要设计 Given When Then 设计方法 500+用例  异常测试 40+自动化用例  混沌测试 20轮自动化随机故障注入 12/33单元测试单元测试是软件开发的过程中最基本的测试，它用来对一个模块、一个函数或者一个类来进行正确性检验的测试工作。 curve通过lcov统计代码覆盖率，衡量单元测试的完备程度，如下图所示： 13/33集成测试测试目的测试内容单元测试后，有必要进行集成测试，发现

0 码力 | 33 页 | 2.64 MB | 6 月前
3
curvefs client删除文件和目录功能设计

link接口或rmdir接口时，需要判断unlink字段的当前值，当nlink字段大于1时，只减nlink字段就可以了，当nlink字段减到0时，才真正的执行删除inode。目录的nlink字段与文件的nlink字段不同，，并且在目录下，，删除目录nlink相应的减1。目录的nlink字段初始值为2 每创建一个新目录，nlink字段也会+1 目录不支持硬链接。二是删除时lookup chubaofs实现了强制从freelist中移除inode的机制，同样是使用设置DeleteMarkFlag的方式。 chubaofs也实现了查询机制，来查询处于freelist当中的inode的情况，以便与运维，这一部分没有细看。优点：实现简单，开发代价小，且后续可以增加metaserver端打开(session)等机制，向着moosefs的演进也是可以的。我们的整个架构设计本身就类似chu inode的问题，这一情况，chubaofs是通过运维手段去修复，见遗留问题。moosefs由于单mds，不存在这个问题。方案设计思考首先我们可以确定以下几个设计点：删除的大致过程如下，首先移除dentry，然后移除inode，可以容忍只存在inode，也就是孤儿inode情况，这部分内容见下面遗留问题。必须要实现（至少)一个trash机制，以作为回收站，不论是后续做UNDEL，还

0 码力 | 15 页 | 325.42 KB | 6 月前
3
Curve文件系统元数据持久化方案设计

Page 5 of 12 其他说明持久化文件中涉及到的数字均以小端序存储利用 fork 子进程 (COW) 的方式解决在持久化的过程中，读写冲突的问题以及性能问题实现 1、inode、entry 的编码给 inode、dentry 增加编码函数 // 这里要尽可能减少 key/value 编码后的字节数，这样同样的内存可以存入较多的 key/value 对序列化目前主要考虑以下 curvefs.waldump : curvefs.dump) }; Q&A© XXX Page 9 of 12 单靠 redis 的 AOF 机制能否保证数据不丢失? 不能，因为 AOF 与 SET/DEL 这些操作不是同步进行的，即使刷入文件配置项开启最高级别的 always 选项，也有可能丢失一个事件循环的数据，实现如下： appendfsync // : call(...) AOF 缓冲区的内容以 append 方式写入文件 (详见: aof.c/flushAppendOnlyFile) (3) 文件同步: 根据 appendfsync 配置选项决定文件同步频率, 该步骤与步骤 2 紧密关联 (详见: aof.c/flushAppendOnlyFile)© XXX Page 10 of 12 1. 所以，AOF 不能保证数据 100% 不丢失（RDB 持久化更不能），结论就是单靠

0 码力 | 12 页 | 384.47 KB | 6 月前
3
CurveFS Client 概要设计

如果inode缓存中不存在对应的inode，则从mds获取inode所在copyset，metaserver ip等信息，然后从metaserver获取inode结构，缓存之；根据inode结构，拆分unwritten/未分配的区域与写过的区域，未写过的区域填0，其他区域继续读取根据inode结构中信息，调用curve client接口，读取对应的[offset, len]数据。（这里同样要考虑4k对齐的问题，如果不对齐，则需要 void (*mknod) (fuse_req_t req, fuse_ino_t parent, const char *name, mode_t mode, dev_t rdev); 这两个函数的功能是类似，都用来创建文件。根据parent inode id 和name，向mds查询创建dentry和inode的位置，去meta server创建dentry和inode 预分配一些空间？可先不做 server的ip就可以）与mds 交互，调用mds接口获取metaserver copyset 和 topo信息，这部分可先不实现（目前先支持单metaserver的情况下，可先不实现，由配置文件加载metaserver的ip）与metaserver交互, 调用meta server接口获取文件系统元数据信息，调用meta server接口获取文件和目录信息等与现有块设备client交互，调用块设备接口，对卷进行读写。

0 码力 | 11 页 | 487.92 KB | 6 月前
3
PFS SPDK: Storage Performance Development Kit

●不能发挥某些NVME的功能，例如write zero10/17/22 5 为什么用PFS ●对代码比较熟悉 ●找一个能管理裸盘，具有产品级可靠性的代码挺难的 ●PFS支持类POSIX文件的接口，与使用EXT4的存储引擎代码很像，所以容易移植现有代码到PFS存储引擎 ●CurveBS对文件系统元数据的操作非常少，对文件系统的要求不高，所以不需要元数据高性能，这方面PFS也合适10/17/22 ●ssize_t pfs_pwritev(int fd, const struct iovec *iov, int iovcnt, off_t offset); ●IO vector的接口主要是为了与brpc的iobuf对接，iobuf由若干地址不连续的block组成，一次IO提交可以提高效率。10/17/22 8 PFS+SPDK 的部分读写的实现 ●某些盘只支持4k单位读写，但是CurveBS支持512字节读写 size_t max_count) ●这个函数的实现是按PRP的规定来做的 ●IOPortal就是IOBuf，是BRPC存放数据的类 ●CurveBS 使用brpc::Controller 的attachment 发送数据 ●attachment是一个IOBuf ●IOBuf直接通过rdma发送出去 ●以上过程在读chunk的代码路径上实现了零copy。10/17/22

0 码力 | 23 页 | 4.21 MB | 6 月前
3
Curve支持S3 数据缓存方案

加锁，根据inode和fsid找到对应的fileCacheManager，如果没有则生成新的fileCacheManager，解锁，调用fileCacheManager的Write函数。 2.考虑到同一个client同一个文件同时只能一个线程进行文件写，所以在Write函数中加写锁。 3.根据请求offset，计算出对应的chunk index和chunkPos。将请求拆分成多个chunk的WriteChunk调用。 4.在 1.根据InodeId找到对应的FileCacheManager，执行Flush函数。 2.在Flush函数中，加写锁，通过swap获取FileCacheManager的chunkCacheMap_到临时变量tmp，并清空chunkCacheMap_，解写锁。遍历tmp中的DataCache列表，执行Flush函数，并更新对应的元数据。 3.Flush返回成功。 4.如果DataCache的Fl Map_中，这里要注意一点：回退的过程，如果chunkCacheMap_为空，则直接swap回退。如果chunkCacheMap_不为空，则表示F lush的过程中有新的cache加入，则需要进行合并，合并的规则是新的cache如果和老的cache有重叠则覆盖老的cache。 FsSync流程 1.循环获取FileCacheManager，执行Flush函数。© XXX Page 9 of 9

0 码力 | 9 页 | 179.72 KB | 6 月前
3
Curve元数据节点高可用

Campaign的流程 3.2.1 代码流程说明 3.2.2 举例说明Campagin流程 3.3 Observe的流程 4. MDS使用election模块的功能进行选主 4.1 Curve中MDS的选举过程 4.2 图示说明选举流程 4.2.1 正常流程 4.2.2 异常情况1：MDS1退出，可以正常处理 4.2.3 异常情况2：Etcd集群的leader发生重新选举，MDS1未受影响，可以正常处理 ElectionTime的情况 4.2.4.2 GetTimeout < ElectionTime 4.2.4.3 MDS1、MDS2、MDS3的租约全部过期 4.2.4.4 总结 4.2.5 异常情况四: Etcd集群与MDS1(当前leader)出现网络分区 4.2.5.1 事件一先发生 4.2.5.2 事件二先发生 4.2.6 异常情况4：Etcd集群的follower节点异常 4.2.7 各情况汇总 1. 举例说明Campagin流程场景描述：三个mds(mds1, mds2, mds3)，希望实现一个mds作为主提供服务，另外两个mds作为备在主挂掉的时候提供服务的功能。如果利用上述的Campagin进行选举，过程如下：正常情况： step1: 三个mds向etcdserver写入带有相同前缀的key，etcd会给每个key一个版本号(revision: 是全局递增的)© XXX Page 12 of

0 码力 | 30 页 | 2.42 MB | 6 月前
3
Curve核心组件之Client - 网易数帆

FileInstance：对应一个已挂载的卷  LeaseExecutor：负责定期与MDS通信，获取卷的元数据信息  元数据信息在打快照时会进行变化  MetaCache：元数据缓存  IOTracker：跟踪一个上层IO请求  IOSplitor：IO转换拆分  ChunkClient、CliClient：与Chunkserver进行通信  前者负责IO请求  后者负责获取复制组(copyset)的leader  MDSClient：负责与MDS交互，挂卸载卷、获取元数据信息 CLIENT整体架构QEMU：实现了QEMU block与Client的对接层向cinder/glance提供了Python API https://github.com/opencurve/curve-qemu-block-driver NBD：实现了Curve-NBD，与内核NBD模块进行交互可以作为容器的数据存储数据面：AioWrite/AioRead、Write/Read  控制面：Create/Delete、Open/Close、Rename等  IO处理：转换、拆分、合并  元数据获取及缓存  逻辑chunk与物理chunk映射关系  物理chunk所属的复制组(copyset)  复制组所在的chunkserver列表  复制组的leader信息  Failover支持  MDS：只有主MDS才会监听端口

0 码力 | 27 页 | 1.57 MB | 6 月前
3

共 28 条前往

页

分类

语言

格式

BRPC与UCX集成指南

CurveFS Copyset与FS对应关系

Curve质量监控与运维 - 网易数帆

curvefs client删除文件和目录功能设计

Curve文件系统元数据持久化方案设计

CurveFS Client 概要设计

PFS SPDK: Storage Performance Development Kit

Curve支持S3 数据缓存方案

Curve元数据节点高可用

Curve核心组件之Client - 网易数帆