主线程 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve核心组件之Client - 网易数帆

 复制组所在的chunkserver列表  复制组的leader信息  Failover支持  MDS：只有主MDS才会监听端口  ChunkServer：通过raft维护复制组内的主-从关系CLIENT IO流程用户下发一个写请求 off: 8M len: 16M 请求落在两个逻辑chunk上，所以请求会被拆分成两个子请求：  ChunkIdx 1, off: 8M 将请求发往leader节点CLIENT IO线程模型用户线程 1. 用户调用接口，发起IO请求 2. AioWrite将请求封装成io task并放入任务队列 3. 放入任务队列后，异步请求发起成功，返回用户 IO拆分线程 4. 从任务队列取出任务后进行拆分 5. 拆分过程依赖元数据，可能会通过MDSClient向 MDS获取 6. 拆分成的子请求放入队列CLIENT IO线程模型 IO分发线程 7. 从队列中取出子请求准备发送 Chunkserver查询复制组leader 9. 发送写请求给Chunkserver BRPC线程 10.Chunkserver处理完成后返回RPC Response 11.用户请求的所有子请求完成后，调用 IOTracker::Done 12.调用异步请求回调，返回用户CLIENT IO请求重试 IO分发线程将拆分后的子请求通过RPC请求发往指定的Chunkserver上，RPC有可能会失败，一般情况下

0 码力 | 27 页 | 1.57 MB | 6 月前
3
TGT服务器的优化

connection，在单线程里做event loop多路复用。 • 多个target时，如果挂的设备多，一旦客户端请求量大，就会忙不过来。 • 开源界有尝试修改 • 例如sheepdog的开发者提交过一个patch，但是测试效果不理想，分析原因，event loop依然是瓶颈对TGT的性能优化 • IO是使用多个epoll 线程，充分发挥多CPU能力 • 当前策略是每个target一个epoll线程，负责Initiator发过来的I/O • 管理平面不变。主线程里的事件循环及问题：管理面是主线程，登录，增、删、改target,lun,session,connection,params 都在主线程，而target epoll 线程也要使用这些数据，多线程冲突，数据一致性问题就来了对TGT的性能优化（续) • 为每一个target增加一把锁 • Target event loop (TEL)线程和管理面线程使用这把锁互斥 • TEL在运行时锁住这把锁，管理面只能等待，等TEL线程进入epoll wait状态，会释放这把锁，管理面可以增删改target信息。 • 不需要target list lock • 因为TEL线程只存取自己负责的target，不存取别的target，所以TEL线程不需要target list lock。 • 管理面是单线程，只有它遍历target list，没有需要互斥的情况。FIO性能测试（配置)

0 码力 | 15 页 | 637.11 KB | 6 月前
3
Curve支持S3 数据缓存方案

of 9 版本时间修改者修改内容 1.0 2021/8/18 胡遥初稿背景整体设计元数据采用2层索引对象名设计读写缓存分离缓存层级对外接口后台刷数据线程本地磁盘缓存关键数据结构详细设计 Write流程 Read流程 ReleaseCache流程 Flush流程 FsSync流程后台流程 poc测试验证背景基于s3的daemon 要提供truncate接口，可以由client直接修改inode的len，由metaserver的碎片整理（马杰负责）模块进行truncate的无效数据清理后台刷数据线程© XXX Page 4 of 9 启动后台线程，将写Cache定时刷到S3上，同时通过inodeManager更新inode缓存中的s3InfoList。具体细节见本地磁盘缓存如果有配置writeBack dev fileCacheManager，如果没有则生成新的fileCacheManager，解锁，调用fileCacheManager的Write函数。 2.考虑到同一个client同一个文件同时只能一个线程进行文件写，所以在Write函数中加写锁。 3.根据请求offset，计算出对应的chunk index和chunkPos。将请求拆分成多个chunk的WriteChunk调用。 4.在WriteC

0 码力 | 9 页 | 179.72 KB | 6 月前
3
BRPC与UCX集成指南

典型的RDMA栈28 UCX 编程的一些基本概念 ●Context –收集机器资源（内存，网卡等)，在应用的各个部分共享 ●Worker –完成ucx的功能，可以在应用程序中调用的函数（不是单独执行的线程） ●Listener –接收连接请求 ●Ep –连接对象，在ep上请求发送和接收29 UCP 消息接口类型 ●Active message –速度最快，被brpc使用作为消息传递 –消息通过回调函数接收 ●Tag –MPI使用 ●Stream –官方不推荐30 WORKER ●worker是UCX通讯中的核心概念，它是一个进度引擎(progress engine) ●worker既不是协程也不是线程，而是一个状态机，可以通过不停地调用 ucp_worker_progress(worker)完成功能。如果你用过libuv或者libevent的evbuffer，它们有点像 proactor，使用 UCX作为选项38 Ucp Context ●只有一个全局对象，使用下列函数获取 ●UCP_Context* get_or_create_ucp_ctx() ●指定了FEATURE_AM, 多线程共享39 命令行参数控制context的属性 ●--brpc_ucp_error_mode缺省是none，是的本地通讯使用shared memory成为可能 ●--brpc_set_cpu_latency

0 码力 | 66 页 | 16.29 MB | 6 月前
3
CurveFS S3数据整理(合并碎片、清理冗余)

offset len } s3 object命名: chunkid_version_index (index为obj在chunk内的index) 执行步骤数据整理作为一个后台服务(线程池), 运行于metaserver, 遍历metaserver的inode进行数据整理的尝试, 入队inodekey, 如果是已有inode任务, enqueue直接返回, 不入队任务开始执行,

0 码力 | 3 页 | 101.58 KB | 6 月前
3
CurveFS S3本地缓存盘方案

当缓存文件内容达到阈值时，停止向本地缓存盘写入。同时，缓存清理模块会定时检查本地硬盘缓存目录容量情况，如果容量已经达到阈值了，则进行文件的清理工作。本地缓存盘的异步上传工作队列: 该队列中保存缓存盘中的待上传文件名工作线程: 遍历工作队列(队列swap)，从缓存盘目录读取到文件内容并上传到对象存储。文件上传到对象存储后，直接删除。工作队列做好互斥管理异常管理如果客户端挂掉，那么写缓存盘中可能会有残留文件没

0 码力 | 9 页 | 150.46 KB | 6 月前
3
Curve核心组件之chunkserver

OpRequest，将上下文保存在里面，然后发起Propose提交给raft，等raft apply后再执行后面的操作。 ChunkServer架构CloneManager主要负责克隆相关的功能，内部是一个线程池，主要负责异步完成克隆chunk的数据补全。关于克隆相关的内容将会在快照克隆相关介绍文档中详细介绍。 ChunkServer架构Metric统计模块使用brpc中的bvar计数器

0 码力 | 29 页 | 1.61 MB | 6 月前
3
CurveFS Copyset与FS对应关系

这个copyset不再承担inode的新建功能。client继续尝试下一个copyset，直到成功从一个copyset上创建到1个inode。 client在系统初始化的时候，还需要起来一个后台线程，定期的检查每一个fs的copyset的状态，如果某一个fs的可以提供分配inode能力的copyset的个数小于规定的值（来自配置文件，默认3个），就为这个fs创建一个新的copyset。©

0 码力 | 19 页 | 383.29 KB | 6 月前
3
Curve元数据节点高可用

clientV3的concurrency模块构成 3.2 Campaign的流程 3.2.1 代码流程说明 3.2.2 举例说明Campagin流程 3.3 Observe的流程 4. MDS使用election模块的功能进行选主 4.1 Curve中MDS的选举过程 4.2 图示说明选举流程 4.2.1 正常流程 4.2.2 异常情况1：MDS1退出，可以正常处理 4.2.3 异常情况2：Etcd集群的leader发生重新选举，MDS1未受影响，可以正常处理 client端无法写入。因此，mds需要做高可用。满足多个mds, 但同时只有一个mds节点提供服务，称该提供服务的mds节点为主，等待节点为备；主节点的服务挂掉之后，备节点能启动服务，尽量减小服务中断的时间。需要解决的问题就是：如何确定主备节点。 2. 技术选型提供配置共享和服务发现的系统比较多，其中最为大家熟知的就是zookeeper和etcd, 考虑当前系统中mds有两个外部依赖模块，一是mysql， --write-out=json revision: 5 3.2.2 举例说明Campagin流程场景描述：三个mds(mds1, mds2, mds3)，希望实现一个mds作为主提供服务，另外两个mds作为备在主挂掉的时候提供服务的功能。如果利用上述的Campagin进行选举，过程如下：正常情况： step1: 三个mds向etcdserver写入带有相同前缀的key，etcd会给每个key一个版本号(revision:

0 码力 | 30 页 | 2.42 MB | 6 月前
3
Curve质量监控与运维 - 网易数帆

Server架构，以支持热升级。升级Curve Client只需重启NEBD Server，业务IO中断时间一般在5 秒之内（右图为1.0版本实测结果）。  MDS易升级自动化滚动升级——先升备再升主，确保升级过程中只发生一次主备切换。  ChunkServer易升级自动化滚动升级——升级一个zone的所有ChunkServer后，等待集群恢复健康后，自动升级下一个zone的ChunkServer；以避免升级

0 码力 | 33 页 | 2.64 MB | 6 月前
3

共 16 条前往

页

分类

语言

格式

Curve核心组件之Client - 网易数帆

TGT服务器的优化

Curve支持S3 数据缓存方案

BRPC与UCX集成指南

CurveFS S3数据整理(合并碎片、清理冗余)

CurveFS S3本地缓存盘方案

Curve核心组件之chunkserver

CurveFS Copyset与FS对应关系

Curve元数据节点高可用

Curve质量监控与运维 - 网易数帆