函数是一等公民 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

BRPC与UCX集成指南

1 用UCX实现BRPC对RDMA的支持徐逸锋2 BRPC简介 ●BRPC是Curve的基础通讯框架 ●支持远程过程调用 –C++ –TCP传输 –bthread协程(m:n调度，减少基于内核的下文切换，减少cache miss) ●多协议支持 –baidu_std,http,grpc… ●protobuf3 BRPC简介 ●Client/Server架构 ●使用Protobuf定义协议文件 –代表一个服务器，可以注册不同的接口服务，例如上面的EchoService6 BRPC SERVER7 BRPC SERVER8 BRPC client9 BRPC EndPoint EndPoint是一个代表通讯地址的数据结构, 是一个C++类。字段: ip，port ●在Socket创建时需要提供EndPoint ●Socket::Connect时需要Remote EndPoint ●Accept的Socket可以获得Remote SocketMap ●根据EndPoint作为一个map的Key，Value是Socket对象 ●Socket对象引用计数，多个Channel可以共享一个Socket对象 ●往SocketMap里调用Insert，要么返回已经存在的Socket对象（引用计数加一)，要么创建一个新的12 BRPC EventDispatcher ●是socket事件分发的中心 ●使用epoll和边沿触发 ●提供

0 码力 | 66 页 | 16.29 MB | 6 月前
3
Curve支持S3 数据缓存方案

访问频次。从这个思路上该缓存方案主要针对的场景是顺序写和顺序读，而对于随机写和随机读来说也会有一定性能提升，但效果可能不会太好。元数据采用2层索引由于chunk大小是固定的（默认64M），所以Inode中采用map s3ChunkInfoMap用于保存对象存储的位置信息。采用2级索引的好处是，根据操作的offset可以快速定位到index 对象名采用chunkId+blockindex+compaction（后台碎片整理才会使用，默认0）+inodeId。增加inodeId的目的是为了后续从对象存储上遍历，反查文件，这里就要求inodeId是永远不可重复。读写缓存分离读写缓存的设计采用的是读写缓存分离的方案。写缓存一旦flush即释放，读缓存采用可设置的策略进行淘汰（默认LRU），对于小io进行block级别的预读。即读写缓存相互没影响不相关，缓存层级加锁，根据inode和fsid找到对应的fileCacheManager，如果没有则生成新的fileCacheManager，解锁，调用fileCacheManager的Write函数。 2.考虑到同一个client同一个文件同时只能一个线程进行文件写，所以在Write函数中加写锁。 3.根据请求offset，计算出对应的chunk index和chunkPos。将请求拆分成多个chunk的WriteChunk调用。 4.在

0 码力 | 9 页 | 179.72 KB | 6 月前
3
CurveFS Copyset与FS对应关系

1、背景 curvefs使用raft作为元数据一致性的保证。为了提高元数据的可扩展性和并发处理能力，采用元数据分片的方式管理inode和dentry的元数据。inode的分片依据是fsid + inodeid，dentry的分片依据是fsid + parentinodeid。借鉴curve块设备的设计思路，（补充copyset的设计文档在这），curvefs的元数据分片仍然按照的copyset的方式去管理。 r、CopySetInfo组成。 curve块设备的copyset是在空间预分配的时候就确定了，每次预分配1GB的空间，然后这1GB的空间每个chunk对应的copyset在预分配的时候已经确定。后续的读写的操作直接去对应的copyset上去进行读写。这个分配copyset方式，并不适合curvefs的元数据。这种分配方式是提前分配了一批空间，即使用户只需要写4KB数据，也一次性分配1GB的空 partition的时候，选择的3个meta node组成一个复制组。如何选择？论文上写的是按照存储节点的memory和disk usage来选的，通常选择内存和disk使用率最低的节点。并去对应的meta node上去创建对应的meta partition。如何选择partition的host，通过这个函数去选择。 func (c *Cluster) (excludeZone , excludeNodeSets

0 码力 | 19 页 | 383.29 KB | 6 月前
3
Open Flags 调研

struct open_how *how, size_t size); open系统调用会打开pathname指定的文件（如果不存在，如果携带O_CREAT flag则会创建），返回一个文件描述符fd（该fd是进程打开文件描述符表的index），在后续系统调用（read(2)、write(2)、lseek(2)、fcntl(2) etc.）中指向这个打开的文件。打开的文件描述符记录中保存着文件的offset Page 3 of 23 open & openat 系统调用的区别：如果pathname是绝对路径，则dirfd参数没用。如果pathname是相对路径，并且dirfd的值不是AT_FDCWD，则pathname的参照物是相对于dirfd指向的目录，而不是进程的当前工作目录；反之，如果dirfd的值是AT_FDCWD，pathname则是相对于进程当前工作目录的相对路径，此时等同于open。 open flags flags定义 flags通过宏定义实现，定义见，主要包括如下flag fcntl.h # 红色是不支持且会执行结果错误；橙色是暂不确定但不影响写入结果；紫色为暂时无法测试；黑色是已经支持 #define O_RDONLY 00000000 #define O_WRONLY 00000001 #define O_RDWR 00000002 #define O_CREAT

0 码力 | 23 页 | 524.47 KB | 6 月前
3
CurveFS Client 概要设计

据parent inode id获取parent inode 所在copyset，metaserver ip等信息，然后从metaserver获取denty（这里有两种方式，一种是只获取当前需要的 denty，一种是list整个目录的denty，这个需要考虑用哪个接口）根据找到的denty结构，获取inodeid，设置 fuse_entry_param，返回给fuse write void void (*mknod) (fuse_req_t req, fuse_ino_t parent, const char *name, mode_t mode, dev_t rdev); 这两个函数的功能是类似，都用来创建文件。根据parent inode id 和name，向mds查询创建dentry和inode的位置，去meta server创建dentry和inode 预分配一些空间？可先不做 newparent, const char *newname, unsigned int flags); rename有两种做法：一是，向metaserver发起inode和dentry迁移，从parent迁移到new parent，并修改name为newname。二是，在new parent创建新的inode和dentry，然后删除旧的parent下的inode和dentry 两者都涉及到rename的事务性的问题？（

0 码力 | 11 页 | 487.92 KB | 6 月前
3
CurveFS ChunkID持久化

ChunkIDGenerator对象的GenChunkID方法； ChunkIDGenerator 类构造函数初始化 init 函数：用于初始化或者更改 ChunkIdAllocatorImpl 的一些配置。但是这些配置不会立即生效，而是等到当前 chunkId池枯竭时才会生效。析构函数 GenChunkID 申请的chunkID池是否枯竭？是，使用 KVStorageClient 申请新的chunkid Bundle 当前chunkID bundle 内最后一个可分配的chunkID bundleSize_；// chunkId池子的大小 };© XXX Page 3 of 3 1. 2. 问题与风险构造函数内判断 storeKey_ 不存在时，会从0开始分配，可能会出现覆盖chunkid的情况； chunkID用完情况没有考虑；

0 码力 | 3 页 | 79.38 KB | 6 月前
3
curvefs client删除文件和目录功能设计

1 of 15 curvefs client 删除文件和目录功能设计© XXX Page 2 of 15 背景相关调研 moosefs chubaofs 方案设计思考 1.Trash机制是实现1个(类似chubaofs)，还是2个（类似moosefs）？ 2. Trash放在哪里？ 3. 是否需要做session机制（在metaserver打开），来维护inode的打开情况？方案设计工作量评估背景目前curvefs client版本对删除unlink和rmdir的设计只有简单的删除inode和dentry结构，遗留了nlink和lookup count相关的内容还未实现，是不完备的。本文首先调研moosefs，chubaofs等分布式系统，参考并设计解决上述遗留问题。当前删除接口代码如下：© XXX Page 3 of 15 CURVEFS_ERROR FuseC inodeid(); return ret; } return ret; } 存在两个问题: 一是删除时nlink字段未考虑：文件的nlink用于实现hard link。 hard link使用nlink字段表示文件的link的引用计数，第一次创建文件是nlink字段为1。每创建一个新的指向该文件的hard link时,nlink字段+1，每删除一个hard link或指向的原文件时，nlink字段-1。©

0 码力 | 15 页 | 325.42 KB | 6 月前
3
PFS SPDK: Storage Performance Development Kit

Cloud Storage Meets RDMA》的说法 ●在100Gbps网络带宽时，内存带宽成为瓶颈 ●Intel Memory Latency Checker (MLC)测试得到的CPU内存带宽是 61Gbps10/17/22 3 RDMA可以减轻CPU负担 ●可以减少CPU操作网络通讯的开销 ●读写内存都由网卡进行offload ●应用程序不再通过系统调用在内核和用户态来回切换10/17/22 ●ssize_t pfs_preadv_dma(int fd, const struct iovec *iov, int iovcnt, off_t offset); ●直接DMA读写，要求的内存必须是DPDK的hugetlb内存 ●必须符合NVME 内存读写地址对齐要求 ●offset 512对齐 ●为零copy提供接口10/17/22 10 BRPC IOBuf DMA ●修改BRPC SGL。 PRP是第一个版本， SGL是后面才发展起来的 ●PRP要求内存按PAGE对齐 ●SGL要求字节/或4字节对齐(double word)，相对宽松10/17/22 13 PFS NVME读对齐实现 ●内存分配页面对齐，实现基于PRP严格的规定，这样SGL也可以用 ●第一个页面可以从非0的页内位置开始直到页面结束位置，必须是512字节倍数。第二个页面必须是整页，内存位置必须在页内位置0处。

0 码力 | 23 页 | 4.21 MB | 6 月前
3
Curve质量监控与运维 - 网易数帆

C u r v e 质量、监控与运维秦亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等多种场景自研的分布式存储系统：  高性能、低延迟  当前实现了高性能块存储，对接OpenStack和 K8s  网易内部线上无故障稳定运行近两年  已完整开源（易部署、易升级、自治） ✓ 运维工具（部署工具、管理工具） 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量软件质量的定义是：软件与明确地和隐含地定义的需求相一致的程度。为了确保最终交付的软件满足需求，必须将质量控制贯穿于设计、开发到测试的整个流程中。设计  设计流程  文档规范开发  编码规范与提交流程 Given When Then 设计方法 500+用例  异常测试 40+自动化用例  混沌测试 20轮自动化随机故障注入 12/33单元测试单元测试是软件开发的过程中最基本的测试，它用来对一个模块、一个函数或者一个类来进行正确性检验的测试工作。 curve通过lcov统计代码覆盖率，衡量单元测试的完备程度，如下图所示： 13/33集成测试测试目的测试内容单元测试后，有必要进行集成测试，发现

0 码力 | 33 页 | 2.64 MB | 6 月前
3
Curve文件系统元数据持久化方案设计

及性能问题实现 1、inode、entry 的编码给 inode、dentry 增加编码函数 // 这里要尽可能减少 key/value 编码后的字节数，这样同样的内存可以存入较多的 key/value 对序列化目前主要考虑以下 2 种，一种是参考 chubaofs 顺序编码，一种是利用 protobuf 直接序列化顺序编码：利用 protobuf（SerializeToString）进行序列化© redis 无法保证数据 100% 不丢失（这主要是 redis 基于性能考量，毕竟纯内存数据库，如果利用 WAL 每次写文件再 sync，那么性能就会下降很多）所以，单靠 redis 的方案是不行了. redis 的高可用、高可扩方案？主要是 redis cluster + 主从复制 (或者第三方 codis + 哨兵) redis cluster/codis 主要解决扩展性的问题，它会进行分片，每个 muliraft 存在的问题？每个 raft ，需要独立的 snapshot（目前 redis 做不到）探索其可行性？？ rocksdb/leveldb + multiraft 可行，因为 leveldb 是可嵌入的，一个 raft 实例中可以绑定一个 leveldb 实例（leveldb 中的 wal 和 SST 文件都可以写到指定的目录) redis 改造 vs 自己实现? 结论：从目前元数据持久

0 码力 | 12 页 | 384.47 KB | 6 月前
3

共 31 条前往

页

分类

语言

格式

BRPC与UCX集成指南

Curve支持S3 数据缓存方案

CurveFS Copyset与FS对应关系

Open Flags 调研

CurveFS Client 概要设计

CurveFS ChunkID持久化

curvefs client删除文件和目录功能设计

PFS SPDK: Storage Performance Development Kit

Curve质量监控与运维 - 网易数帆

Curve文件系统元数据持久化方案设计