数据层优化 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

TGT服务器的优化

TGT 服务器的优化块设备协议 • NBD • Linux专有块设备协议 • iSCSI • 广泛支持的外部设备协议（块，磁带等）Curve云原生存储支持块设备 • 通过NBD，只支持Linux • 通过SDK API，目前只支持Linux • PFS • 扩大使用范围 • 通过iSCSI支持更多系统，例如Windows, 类UNIX系统等，使用两项基础技术 • TCP/IP 作为LILO支持用户态的接口 • 如何评价LILO • 输出内核块设备I/O效率高 • 不利于把复杂的存储协议代码搬进内核，例如(curve, brpc, c++, protobuf 等) • TCMU多了一层转接，配置过程复杂，业界踩的坑不够多。 • TCMU的用户态代码会受到框架约束，不够灵活。iSCSI target 服务器 • TGT(STGT) • 比较久的历史，原来叫STGT，后来改成TGT 多个target时，如果挂的设备多，一旦客户端请求量大，就会忙不过来。 • 开源界有尝试修改 • 例如sheepdog的开发者提交过一个patch，但是测试效果不理想，分析原因，event loop依然是瓶颈对TGT的性能优化 • IO是使用多个epoll 线程，充分发挥多CPU能力 • 当前策略是每个target一个epoll线程，负责Initiator发过来的I/O • 好处是各target上的CPU使用由OS负责分配，CPU分配粒度更细

0 码力 | 15 页 | 637.11 KB | 6 月前
3
Curve元数据节点高可用

© XXX Page 1 of 30 Curve元数据节点高可用© XXX Page 2 of 30 1. 需求 2. 技术选型 3. etcd clientv3的concurrency介绍 3.1 etcd clientV3的concurrency模块构成 3.2 Campaign的流程 3.2.1 代码流程说明 3.2.2 举例说明Campagin流程 3.3 Observe的流程 Etcd集群与MDS1(当前leader)出现网络分区 4.2.5.1 事件一先发生 4.2.5.2 事件二先发生 4.2.6 异常情况4：Etcd集群的follower节点异常 4.2.7 各情况汇总 1. 需求 mds是元数据节点，负责空间分配，集群状态监控，集群节点间的资源均衡等，mds故障可能会导致client端无法写入。因此，mds需要做高可用。满足多个mds, 但同时只有一个mds节点提供服务，称该提供服务的的就是zookeeper和etcd, 考虑当前系统中mds有两个外部依赖模块，一是mysql，用于存储集群拓扑的相关信息；二是etcd，用于存储文件的元数据信息。而etcd可以用于实现mds高可用，没必要引入其他组件。使用etcd实现元数据节点的leader主要依赖于它的两个核心机制: TTL和CAS。TTL(time to live)指的是给一个key设置一个有效期，到期后key会被自动删

0 码力 | 30 页 | 2.42 MB | 6 月前
3
Curve文件系统元数据管理

of 24 Curve文件系统元数据管理（已实现）© XXX Page 2 of 24 1. 2. 3. 4. Inode 1、设计一个分布式文件系统需要考虑的点： 2、其他文件系统的调研总结 3、各内存结构体 4、curve文件系统的元数据内存组织 4.1 inode定义： 4.2 dentry的定义： 4.3 内存组织 5 元数据分片 5.1 分片方式一：in 1、设计一个分布式文件系统需要考虑的点：文件系统的元数据是否全缓存？元数据持久化在单独的元数据服务器上？在磁盘上？在volume上？ inode+dentry方式？当前curve块存储的kv方式？是否有单独的元数据管理服务器？ 2、其他文件系统的调研总结 fs 中心化元数据内存namespace元数据内存空间分配元数据元数据持久化元数据扩展小文件优化空间管理单位数据持久化其他© XXX Page moosefs（mfs）有元数据服务器全内存 fsnode → hashtable(inode id) fsedge → hashtable (parent inode + name) 全内存 chunk → hashtable(chunk id) log + dump record 差否 chunk 链式多副本 overwirte有数据不一致风险 chubaofs（cfs）有元数据服务器 inode

0 码力 | 24 页 | 204.67 KB | 6 月前
3
Curve支持S3 数据缓存方案

© XXX Page 1 of 9 Curve支持S3 数据缓存方案© XXX Page 2 of 9 版本时间修改者修改内容 1.0 2021/8/18 胡遥初稿背景整体设计元数据采用2层索引对象名设计读写缓存分离缓存层级对外接口后台刷数据线程本地磁盘缓存关键数据结构详细设计 Write流程 Read流程 ReleaseCache流程基于s3的daemon版本基于基本的性能测试发现性能非常差。具体数据如下：通过日志初步分析有2点原因© XXX Page 3 of 9 1.append接口目前采用先从s3 get，在内存中合并完后再put的方式，对s3操作过多 2.对于4k 小io每次都要和s3交互，导致性能非常差。因此需要通过Cache模块解决以上2个问题。整体设计整个dataCache的设计思路，在写场景下能将数据尽可能的合并后flush到s3 景上，能够预读1个block大小，减少顺序读对于底层s3的访问频次。从这个思路上该缓存方案主要针对的场景是顺序写和顺序读，而对于随机写和随机读来说也会有一定性能提升，但效果可能不会太好。元数据采用2层索引由于chunk大小是固定的（默认64M），所以Inode中采用map s3ChunkInfoMap用于保存对象存储的位置信息。采用2级索

0 码力 | 9 页 | 179.72 KB | 6 月前
3
Curve文件系统元数据Proto（接口定义）

© XXX Page 1 of 15 curve文件系统元数据proto（代码接口定义，已实现）© XXX Page 2 of 15 1、代码结构和代码目录 curve文件系统是相对于curve块设备比较独立的一块，在当前curve项目的目录下，增加一个一级目录curvefs，curvefs下有自己独立的proto\src\test。 2、文件系统proto定义 2.1 mds.proto

0 码力 | 15 页 | 80.33 KB | 6 月前
3
CurveFS S3数据整理(合并碎片、清理冗余)

1 of 3 curvefs s3数据整理(合并碎片、清理冗余)© XXX Page 2 of 3 1. 2. 3. 1. 2. 3. 4. 5. 6. 1. 2. 背景只考虑单客户端, 单metaserver 为了解决的问题: 客户端在对一个文件的某个部分多次写入后, 同一个chunk会产生很多版本数据; 而客户端在读的时候, 会需要对这些chunk进行筛选和构建会需要对这些chunk进行筛选和构建, 得到有效的部分, 越是散乱的状态, 就越需要发送更多次读请求至s3. 最后导致无效旧数据的堆积和读请求性能的下降, 所以需要在合适的时候进行重叠元数据和数据的合并原则是尽力而为, 并不能做到完美方案基于一下3个基础的数据结构, 2层索引 s3chuninfolist[index] = [s3chunkinfo(s)] s3chunkinfo { } s3 object命名: chunkid_version_index (index为obj在chunk内的index) 执行步骤数据整理作为一个后台服务(线程池), 运行于metaserver, 遍历metaserver的inode进行数据整理的尝试, 入队inodekey, 如果是已有inode任务, enqueue直接返回, 不入队任务开始执行, 尝试根据inodekey获取inode信息

0 码力 | 3 页 | 101.58 KB | 6 月前
3
Curve文件系统元数据持久化方案设计

© XXX Page 1 of 12 元数据持久化© XXX Page 2 of 12 前言 Raft Log Raft Snapshot 持久化文件 key_value_pairs 其他说明实现 1、inode、entry 的编码 2、KVStore Q&A 单靠 redis 的 AOF 机制能否保证数据不丢失? redis 的高可用、高可扩方案？ redis + muliraft 存在的问题？ redis 改造 vs 自己实现? redis 中哈希表实现的优点？参考前言根据之前讨论的结果，元数据节点的架构如下图所示，这里涉及到两部分需要持久化/编码的内容： Raft Log：记录 operator log Raft Snapshot：将内存中的数据结构以特定格式 dump 到文件进行持久化© XXX Page 3 of 12 Raft Log +------+- -----------+---------+ 持久化文件字段字节数说明 CURVEFS 7 magic number（常量字符 "CURVEFS"），用于标识该文件为 curvefs 元数据持久化文件 version 4 文件版本号（当文件格式变化时，可以 100% 向后兼容加载旧版持久化文件） size 8 键值对数量 key_value_pairs / 键值对（当 size 为

0 码力 | 12 页 | 384.47 KB | 6 月前
3
Curve核心组件之chunkserver

Curve核心组件之ChunkServer 查日苏CURVE CURVE是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟存储底座 • 可扩展存储场景：块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储，对接 openstack 和 k8s 网易内部线上无故障稳定运行500+天 • 已开源 • github主页： https://opencurve.github ChunkServer架构 ChunkServer核心模块新版本ChunkServer性能优化CURVE基本架构 • 元数据节点 MDS • 管理和存储元数据信息 • 感知集群状态，合理调度 • 数据节点 Chunkserver • 数据存储 • 副本一致性，raft • 客户端 Client • 对元数据增删改查 • 对数据增删改查 • 快照克隆服务器CURVE基本架构 01 02 03 ChunkServer核心模块新版本ChunkServer性能优化Curve ChunkServer是数据节点，对外提供数据读写和节点管理功能，底层基于ext4文件系统，操作实际的磁盘。 ChunkServer架构ChunkServer通过RPC网络层与client， MDS，其他ChunkServer通信。RPC 网络层是由brpc框架去完成的。包括读写socket，rpc协议解析等。

0 码力 | 29 页 | 1.61 MB | 6 月前
3
Curve核心组件之Client - 网易数帆

e 核心组件之 C l i e n t 吴汉卿CURVE CURVE是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟存储底座 • 可扩展存储场景：块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储，对接 OpenStack 和 k8s • 网易内部线上无故障稳定运行400+天 • 已开源 • github主页： https://opencurve Client总体介绍热升级NEBD总体介绍新版本Client/NEBD性能优化CURVE基本架构 • 元数据节点 MDS • 管理和存储元数据信息 • 感知集群状态，合理调度 • 数据节点 Chunkserver • 数据存储 • 副本一致性，raft • 客户端 Client • 对元数据增删改查 • 对数据增删改查 • 快照克隆服务器CURVE基本架构 01 02 03 新版本Client/NEBD性能优化 QEMU、Curve-NBD：上层应用  通过链接curve-client使用curve提供的服务  FileManager：提供接口，记录已挂载卷  FileInstance：对应一个已挂载的卷  LeaseExecutor：负责定期与MDS通信，获取卷的元数据信息  元数据信息在打快照时会进行变化  MetaCache：元数据缓存  IOTracker：跟踪一个上层IO请求

0 码力 | 27 页 | 1.57 MB | 6 月前
3
CurveFS方案设计

增加快照部分 2021-04-13 李小翠、陈威补充元数据数据结构 2021-04-19 李小翠、吴汉卿、许超杰等补充文件空间分配，讨论与确认背景调研开源fs 性能对比可行性分析方案对比对比结论架构设计卷和文件系统元数据架构文件系统快照方案一：文件/目录级别快照方案二：文件系统快照关键点元数据设计数据结构索引设计文件空间管理开发计划及安排背景为更好的支持云原生的场景，Curve需要支持高性能通用文件系统，其中高性能主要是适配云原生数据库的场景。当前Curve是实现了块存储，向上提供块设备服务，CurveFS会基于此实现。第一阶段的目标是实现满足数据库场景的文件接口。调研开源fs 当前对已有的开源分布式文件系统进行了调研，主要包括系统架构，元数据内存结构，元数据持久化，调研文档如下： chubaofs: ChubaoFS© XXX Page 并对以上文件系统在相同环境进行了元数据节点性能测试：。测试结果c开发的moosefs和fastcfs元数据性能远优于go开发的chubaofs和c开发的cephfs，理论上分析这个结果是合理的，分布式的元数据设调研测试计会涉及到多次rpc的交互。这里需要确认的一点是：我们需要怎样的元数据节点的性能？可行性分析方案对比根据上述调研和测试结果，我们考虑了三种curvefs的元数据设计方案： CurveFS

0 码力 | 14 页 | 619.32 KB | 6 月前
3

共 31 条前往

页

分类

语言

格式

TGT服务器的优化

Curve元数据节点高可用

Curve文件系统元数据管理

Curve支持S3 数据缓存方案

Curve文件系统元数据Proto（接口定义）

CurveFS S3数据整理(合并碎片、清理冗余)

Curve文件系统元数据持久化方案设计

Curve核心组件之chunkserver

Curve核心组件之Client - 网易数帆

CurveFS方案设计