存储过程 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve 分布式存储设计

Curve 分布式存储设计程义 — Curve Maintainer XAgenda 第二第三第四第一 Curve的由来 Curve的设计目标 Curve块存储和 Curve文件存储 Curve社区Curve的由来 1. 代码复杂/代码量大 2. 运维难度高 3. 无法满足高的性能需求Curve的设计目标 1. Curve云原生软件定义存储 2. Curve块存储 Curve块存储 3. Curve文件存储 4. 高性能，易运维，云原生Curve块存储 1. 高性能分布式共享数据库场景 2. Curve块存储提供底层分布式共享存储 3. Polardb for PostgreSQL提供上层高性能数据库服务 4. 性能测试 1. benchmarkSQL 每分钟事务数提升39% 2. pgbench 延迟降低21% TPS提升26% 研究现状Curve块存储研究现状Curve块存储 1. 分布式块存储服务 2. KVM块存储服务 3. iSCSI协议 4. 容器云块存储(CSI) 应用场景Curve块存储 1. 高可用性/高可靠性 (易运维) 2. RAFT一致性协议 3. CopySet分配算法 4. 拓扑结构 5. 高性能 6. chunkfilepool (降低写放大) 7. data stripe (增大并发) 8. zerocopy

0 码力 | 20 页 | 4.13 MB | 6 月前
3
Raft在Curve存储中的工程实践

分布式存储系统，支持块存储和文件存储 2018~2021 Curve块存储 2021~2022 Curve文件存储 • 基于Openstack构建云计算平台 • 底层存储使用Ceph块存储 • 稳定性挑战 • 算力平台kubernetes的迅速发展 • AI/大数据业务的快速增长 • 存储使用Ceph文件存储/HDFS • 成本/性能挑战 Curve块存储和文件存储均采用raft协议整体架构对接OpenStack平台为云主机提供高性能块存储服务 • 对接Kubernetes为其提供RWO、RWX等类型的持久化存储卷 • 对接PolarFS作为云原生数据库的高性能存储底座，完美支持云原生数据库的存算分离架构 • Curve作为云存储中间件使用S3兼容的对象存储作为数据存储引擎，为公有云用户提供高性价比的共享文件存储 • 支持在物理机上挂载使用块设备或FUSE文件致已经被提交，系统切换到新的配置(new)。RAFT协议简介日志压缩 • 日志会不断增长，占用空间 • 采用快照的方式压缩日志 • 在某个时间点，整个系统的状态都以快照的形式写入到稳定的持久化存储中 • 完成一次快照之后，删除时间点之前的所有日志和快照。BRAFT简介 • raft协议提出之后，涌现出了非常多的实现，比如etcd，braft，tikv等。 • braft是raft的一

0 码力 | 29 页 | 2.20 MB | 6 月前
3
新一代云原生分布式存储

新一代云原生分布式存储—Curve 上李小翠网易数帆存储团队分布式存储介绍 01 存储的发展 | 分布式存储的分类 | 分布式存储的要素 02 03 04 Ceph 架构简介 | 场景介绍 | 使用中的问题 Curve 架构简介 | 数据对比 | 应用情况 FAQ 答疑存储的发展互联网时代，数据大爆炸大型主机成本高单点问题扩容困难各存储设备通过网络互联各存储设备通过网络互联大规模弹性扩容底层构建在分布式存储之上云的概念成本：共用基础设施弹性：随意扩缩容速度：更快的构建发布业务底层构建在分布式存储之上云原生的概念：易用性：跨平台，超融合，弹性小型主机容量有限分布式存储的分类按照各种应用场景所需的存储接口分类对象存储文件存储块存储接口为简单的 Get、PUT、DEL 和其他扩展通常意义是支持对指定地址空间进行随机读写传统意义的块存储：磁盘分布式存储的要素如何构建分布式文件系统？以分布式块存储为例。 •提供大容量的块设备 •可以在指定地址空间内随机读写 write(offset, len) •服务质量要求：数据不能丢、服务随时可用、弹性扩缩容要什么 •成百上千台存储节点 •磁盘故障、机器故障、网络故障概率性发生有什么分布式存储系统需要满足接口需求，并且有持续监控、错误检测、容错与自动恢复的能力

0 码力 | 29 页 | 2.46 MB | 6 月前
3
Curve质量监控与运维 - 网易数帆

亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等多种场景自研的分布式存储系统：  高性能、低延迟  当前实现了高性能块存储，对接OpenStack和 K8s  网易内部线上无故障稳定运行近两年  已完整开源 • github主页： https://opencurve https://opencurve.github.io/ • github代码仓库： https://github.com/opencurve/curve Curve 3/33为用户服务作为一个复杂的大型分布式存储系统，Curve 需要利用科学的方法论和专业的工具，在整个软件生命周期内更好地为用户服务：  质量——向用户交付稳定可靠的软件；  监控——直观地展示Curve运行状态；  运维——保障Curve始终稳定高效运行。  集成测试 Given When Then 设计方法 500+用例  异常测试 40+自动化用例  混沌测试 20轮自动化随机故障注入 12/33单元测试单元测试是软件开发的过程中最基本的测试，它用来对一个模块、一个函数或者一个类来进行正确性检验的测试工作。 curve通过lcov统计代码覆盖率，衡量单元测试的完备程度，如下图所示： 13/33集成测试测试目的测试内容

0 码力 | 33 页 | 2.64 MB | 6 月前
3
Curve核心组件之Client - 网易数帆

C u r v e 核心组件之 C l i e n t 吴汉卿CURVE CURVE是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟存储底座 • 可扩展存储场景：块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储，对接 OpenStack 和 k8s • 网易内部线上无故障稳定运行400+天 • 已开源 • github主页： https://opencurve 04 Client总体介绍热升级NEBD总体介绍新版本Client/NEBD性能优化CURVE基本架构 • 元数据节点 MDS • 管理和存储元数据信息 • 感知集群状态，合理调度 • 数据节点 Chunkserver • 数据存储 • 副本一致性，raft • 客户端 Client • 对元数据增删改查 • 对数据增删改查 • 快照克隆服务器CURVE基本架构 01 API https://github.com/opencurve/curve-qemu-block-driver NBD：实现了Curve-NBD，与内核NBD模块进行交互可以作为容器的数据存储 CSI插件也已经开源： https://github.com/opencurve/curve-csi CLIENT上层应用CLIENT虚拟块设备CLIENT主要功能  提供接口  数

0 码力 | 27 页 | 1.57 MB | 6 月前
3
Curve元数据节点高可用

Campaign的流程 3.2.1 代码流程说明 3.2.2 举例说明Campagin流程 3.3 Observe的流程 4. MDS使用election模块的功能进行选主 4.1 Curve中MDS的选举过程 4.2 图示说明选举流程 4.2.1 正常流程 4.2.2 异常情况1：MDS1退出，可以正常处理 4.2.3 异常情况2：Etcd集群的leader发生重新选举，MDS1未受影响，可以正常处理需要解决的问题就是：如何确定主备节点。 2. 技术选型提供配置共享和服务发现的系统比较多，其中最为大家熟知的就是zookeeper和etcd, 考虑当前系统中mds有两个外部依赖模块，一是mysql，用于存储集群拓扑的相关信息；二是etcd，用于存储文件的元数据信息。而etcd可以用于实现mds高可用，没必要引入其他组件。使用etcd实现元数据节点的leader主要依赖于它的两个核心机制: TTL和CAS。TTL(time 举例说明Campagin流程场景描述：三个mds(mds1, mds2, mds3)，希望实现一个mds作为主提供服务，另外两个mds作为备在主挂掉的时候提供服务的功能。如果利用上述的Campagin进行选举，过程如下：正常情况： step1: 三个mds向etcdserver写入带有相同前缀的key，etcd会给每个key一个版本号(revision: 是全局递增的)© XXX Page 12 of

0 码力 | 30 页 | 2.42 MB | 6 月前
3
Curve支持S3 数据缓存方案

s3ChunkInfoMap用于保存对象存储的位置信息。采用2级索引的好处是，根据操作的offset可以快速定位到index，则只需要遍历index相关的S3ChunkInfoList，减少了遍历的范围。对象名设计对象名采用chunkId+blockindex+compaction（后台碎片整理才会使用，默认0）+inodeId。增加inodeId的目的是为了后续从对象存储上遍历，反查文件，这里就要求inodeId是永远不可重复。如果DataCache的Flush失败，则整个Flush失败。但是缓存需要重新回退到chunkCacheMap_中，这里要注意一点：回退的过程，如果chunkCacheMap_为空，则直接swap回退。如果chunkCacheMap_不为空，则表示F lush的过程中有新的cache加入，则需要进行合并，合并的规则是新的cache如果和老的cache有重叠则覆盖老的cache。 FsSync流程

0 码力 | 9 页 | 179.72 KB | 6 月前
3
CurveFS方案设计

元数据设计数据结构索引设计文件空间管理开发计划及安排背景为更好的支持云原生的场景，Curve需要支持高性能通用文件系统，其中高性能主要是适配云原生数据库的场景。当前Curve是实现了块存储，向上提供块设备服务，CurveFS会基于此实现。第一阶段的目标是实现满足数据库场景的文件接口。调研开源fs 当前对已有的开源分布式文件系统进行了调研，主要包括系统架构，元数据内存结构，元数据持久化，调研文档如下：的元数据缓存使用的 lru cache，因此 list 只能依赖 etcd 的 range 获取方式。如果需要对 list 加速，需要新的缓存结构 c. 扩展性/可用性/可靠性依赖于第三方kv存储，目前是etcd CurveFS 单机内存元数据设计类似 fastcfs 和 moosefs 的元数据设计方式，采用通用的 dentry，inode 两层映射关系，所有的元数据都缓存在内存中，持久化在虽然改造简单，短期内对基本功能的支持没有问题，但这个架构不利于 Curve 长期的规划和演进，因此选择通用的 dentry，inode 两层映射的元数据结构。对于 fs© XXX Page 4 of 14 的场景，元数据的量比块存储场景会多很多，长期看元数据节点的设计也是需要满足高可用、高可扩、高可靠的。因此对元数据节点的要求总结为：高可用、高可扩、高可靠、高性能。架构设计卷和文件系统© XXX Page 5 of

0 码力 | 14 页 | 619.32 KB | 6 月前
3
Curve核心组件之chunkserver

Curve核心组件之ChunkServer 查日苏CURVE CURVE是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟存储底座 • 可扩展存储场景：块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储，对接 openstack 和 k8s 网易内部线上无故障稳定运行500+天 • 已开源 • github主页： https://opencurve.github ChunkServer架构 ChunkServer核心模块新版本ChunkServer性能优化CURVE基本架构 • 元数据节点 MDS • 管理和存储元数据信息 • 感知集群状态，合理调度 • 数据节点 Chunkserver • 数据存储 • 副本一致性，raft • 客户端 Client • 对元数据增删改查 • 对数据增删改查 • 快照克隆服务器CURVE基本架构 01 2、解析MDS的心跳response中的raft 成员变更信息，向CopysetNode发起变更 ChunkServer架构ChunkOpRequest模块封装了对 ChunkService到达的I/O请求的实际处理过程。请求到来时，封装一个 OpRequest，将上下文保存在里面，然后发起Propose提交给raft，等raft apply后再执行后面的操作。 ChunkServer架构CloneManager主要负责克隆相关的功

0 码力 | 29 页 | 1.61 MB | 6 月前
3
CurveFS Copyset与FS对应关系

metaserver 子模块拆分 8、inode和dentry的内存估算 8.1 一台机器上能存放多少个inode和dentry 8.2 一台机器上建议的copyset数量 8.3 每个copyset建议管理存储容量的大小 1、背景 curvefs使用raft作为元数据一致性的保证。为了提高元数据的可扩展性和并发处理能力，采用元数据分片的方式管理inode和dentry的元数据。inode的分片依据是fsid yset的设计文档在这），curvefs的元数据分片仍然按照的copyset的方式去管理。 curve块存储的topo信息由PhysicalPool、LogicalPool、Zone、Server、ChunkServer、CopySetInfo组成。curvefs可以照搬curve块存储的topo设计，只是保存的内容从数据变成了元数据。 curvefs的topo信息设计可以由Physical id的个数为2^24，最后一片metapartition管理剩下的一直到2^63-1的Inode id。创建meta partition的时候，选择的3个meta node组成一个复制组。如何选择？论文上写的是按照存储节点的memory和disk usage来选的，通常选择内存和disk使用率最低的节点。并去对应的meta node上去创建对应的meta partition。如何选择partition的host，通过这个函数去选择。

0 码力 | 19 页 | 383.29 KB | 6 月前
3

共 29 条前往

页

分类

语言

格式

Curve 分布式存储设计

Raft在Curve存储中的工程实践

新一代云原生分布式存储

Curve质量监控与运维 - 网易数帆

Curve核心组件之Client - 网易数帆

Curve元数据节点高可用

Curve支持S3 数据缓存方案

CurveFS方案设计

Curve核心组件之chunkserver

CurveFS Copyset与FS对应关系