多场景应用 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

新一代云原生分布式存储

李小翠网易数帆存储团队分布式存储介绍 01 存储的发展 | 分布式存储的分类 | 分布式存储的要素 02 03 04 Ceph 架构简介 | 场景介绍 | 使用中的问题 Curve 架构简介 | 数据对比 | 应用情况 FAQ 答疑存储的发展互联网时代，数据大爆炸大型主机成本高单点问题扩容困难各存储设备通过网络互联大规模弹性扩容底层构建在分布式存储之上成本：共用基础设施弹性：随意扩缩容速度：更快的构建发布业务底层构建在分布式存储之上云原生的概念：易用性：跨平台，超融合，弹性小型主机容量有限分布式存储的分类按照各种应用场景所需的存储接口分类对象存储文件存储块存储接口为简单的 Get、PUT、DEL 和其他扩展通常意义是支持 POSIX 接口传统意义的文件系统： Ext4 对指定地址空间进行随机读写要素拆解数据分布 —— 无中心节点/中心节点均衡地址空间的每段数据会分布在不同机器的磁盘上，如何找到这些数据？可靠性 & 可用性 —— 多副本/EC 服务不可用时间数据一致性 —— 一致性协议如何保证数据不丢？如何保证各种硬件故障的时候读写都正常？可扩展性 —— 和数据分布的方式相关所用容量都用完后，可以新增机器扩展容量分布式存储的要素

0 码力 | 29 页 | 2.46 MB | 6 月前
3
Raft在Curve存储中的工程实践

r a f t 在 C u r v e 存储中的工程实践陈威Curve介绍 01 02 raft和braft 03 raft在Curve中的应用 05 Q&A 04 Curve对raft的优化项目背景 Curve是一个高性能、更稳定、易运维的云原生分布式存储系统，支持块存储和文件存储 2018~2021 Curve块存储 2021~2022 Curve文件存储目标方法影响力降本获客用户开发者操作系统芯片数据库云原生 AI训练大数据社区生态Curve介绍 01 02 raft和braft 03 raft在Curve中的应用 05 Q&A 04 Curve对raft的优化RAFT协议简介什么是raft • raft 是一种新型易于理解的分布式一致性复制协议，由斯坦福大学的Diego Ongaro和John 和分区容忍性 • 大多数副本成功即可返回成功 • 速度取决于写的较快的大多数RAFT协议简介 • Leader：负责从客户端接受日志，把日志复制到其他服务器，当保证安全性的时候告诉其他服务器应用日志条目到他们的状态机中。 • Candidate: 发起选举。获取大多数选票的候选人将成为领导者。 • Follower: 响应来自其他服务器的请求，如果接受不到消息，就变成候选人并发起一次选举。

0 码力 | 29 页 | 2.20 MB | 6 月前
3
Curve设计要点

新一代分布式存储系统 Curve 李小翠Curve 是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟 • 可支撑储场景：块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储，对接OpenStack和 K8s 网易内部线上无故障稳定运行一年多，线上异常演练 • 已开源 • github主页： https://opencurve.github.io/ • github代码仓库： 01 02 03 04 总体设计系统特性近期规划背景 • 多个存储软件：SDFS、NEFS、NBS • 已有的开源软件：Ceph • 不能胜任性能、延迟敏感的场景 • 异常场景抖动较大（比如慢盘场景） • 去中心节点设计在集群不均衡的情况下需要人工运维 • 基于通用分布式存储构建上层存储服务背景 01 02 03 04 总体设计系统特性近期规划基本架构 • 从快照回滚数据组织形式 • 底层可用性 / 可靠性扩展性 / 负载均衡向上提供无差别文件流 • Application 块/对象/EC等感知具体格式提供不同文件类型支撑不同上层应用数据组织形式 • PageFile/AppendFile/AppendECFile • Segment • 逻辑概念，空间分配的基本单元（减少元数据数量） • 多个连续地址空间chunk（物理文件）的聚合数据组织形式

0 码力 | 35 页 | 2.03 MB | 6 月前
3
Curve质量监控与运维 - 网易数帆

与运维秦亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等多种场景自研的分布式存储系统：  高性能、低延迟  当前实现了高性能块存储，对接OpenStack和 K8s  网易内部线上无故障稳定运行近两年  已完整开源 • github主页： https://opencurve 单个模块的误差积累是否会放大，从而达到不可接受的程度。  功能测试站在使用者的角度，对模块提供的功能进行完备的测试。  异常测试制造或模拟系统异常(磁盘错误、网络错误、资源冲突等)、依赖服务异常、应用本身异常等非正常情况，测试软件的性能和稳定性是否符合预期。  规模测试测试模块在一定规模下是否能够正常工作，是否会出现异常或者崩溃， 14/33系统测试系统测试是对整个系统的测容易发现隐藏的问题，手工测试无法做到频繁触发  测试用例可以持续积累，成为代码质量的。目前Curve的异常测试以及混沌测试均实现了自动化。 15/33测试用例的编写方法很多情况下，待测试场景会包含多个变化的参数，每个参数有若干个典型值；如果将用例覆盖所有可能的情况，总用例数将达到不可接受的程度。因此，需要通过组合测试的方法，尽量用较少的用例数量覆盖绝大多数情况：  两因素组合测试

0 码力 | 33 页 | 2.64 MB | 6 月前
3
Curve文件系统元数据管理

4、curve文件系统的元数据内存组织 4.1 inode定义： 4.2 dentry的定义： 4.3 内存组织 5 元数据分片 5.1 分片方式一：inode和dentry都按照parentid分片 5.1.1 场景分析查找：查找/A/C。创建：/A/C不在，创建/A/C 删除文件：删除/A/C 删除目录：删除/A rename：rename /A/C到/B/E symbolic link： hardlink：生成一个hardlink 行分片，Dentry按照parentid进行分片 rename：rename /A/C到/B/E hardlink：生成一个hardlink /B/E，指向文件/A/C 6、curve文件系统的多文件系统的设计 1、设计一个分布式文件系统需要考虑的点：文件系统的元数据是否全缓存？元数据持久化在单独的元数据服务器上？在磁盘上？在volume上？ inode+dentry方式？当前curve块存储的kv方式？ hashtable (parent inode + name) 全内存 chunk → hashtable(chunk id) log + dump record 差否 chunk 链式多副本 overwirte有数据不一致风险 chubaofs（cfs）有元数据服务器 inode → b tree(key ino) dentry → b tree (key parentIno +

0 码力 | 24 页 | 204.67 KB | 6 月前
3
CurveFS方案设计

关键点元数据设计数据结构索引设计文件空间管理开发计划及安排背景为更好的支持云原生的场景，Curve需要支持高性能通用文件系统，其中高性能主要是适配云原生数据库的场景。当前Curve是实现了块存储，向上提供块设备服务，CurveFS会基于此实现。第一阶段的目标是实现满足数据库场景的文件接口。调研开源fs 当前对已有的开源分布式文件系统进行了调研，主要包括系统架构，元数据内存结构，元数据持久化，调研文档如下： slave，slave 在内存中也缓存了全部元数据信息 master-slave 多副本数据 CurveFS 分布式元数据设计类似 chubaofs 的元数据设计方式，同样是采用 dentry，inode 两层映射关系，所有的元数据都缓存在内存中。元数据是分片的，使用 multi-raft 持久化元数据以及保证多副本数据一致性。基于这种方式开发： a. 性能由于元数据分片，获取元数据 14 的场景，元数据的量比块存储场景会多很多，长期看元数据节点的设计也是需要满足高可用、高可扩、高可靠的。因此对元数据节点的要求总结为：高可用、高可扩、高可靠、高性能。架构设计卷和文件系统© XXX Page 5 of 14 1. 1. 2. 2. 1. 2. 1. 2. 一个卷对应一个文件系统文件系统中文件数据和chunk是一对多的关系。

0 码力 | 14 页 | 619.32 KB | 6 月前
3
CurveFS Copyset与FS对应关系

对应关系上，实现起来差别不大。fs是否共用copyset的影响比较大的方面在其他地方。一个是copyset的数目，如果的每个fs独占copyset，那么整个系统的copyset的个数一定会比非独占多。copyset对资源的占用开销大不大。会不会因为太吃资源导致性能反而下降。chubaofs的大量的copyset 方案里面，每一个metanode上能够服务的copyset个数是有限制的，当内 st请求需要带上copyset信息。 7.2 mds端 1、需要实现topo模块 2、实现mds和metaserver的心跳 3、实现fs和copyset的分片策略的实现 4、实现出现异常场景下的数据恢复，副本修复的调度。 7.3 metaserver端 1、需要提供copyset的创建功能 2、由copyset负责inode和dentry的管理 3、定期向mds上报心跳，并根据心跳结果执行配置变更 + ci完成） client 10d mds 15d metaserver 10d 考虑到partition和copyset的多对一关系会带来开发商的复杂性，是否考虑先只实现partition和copyset一对一的情况。等下一个版本，再实现的多对一的场景。接口设计：https://github.com/opencurve/curve/pull/495 增加copyset.proto

0 码力 | 19 页 | 383.29 KB | 6 月前
3
Curve核心组件之Client - 网易数帆

C u r v e 核心组件之 C l i e n t 吴汉卿CURVE CURVE是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟存储底座 • 可扩展存储场景：块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储，对接 OpenStack 和 k8s • 网易内部线上无故障稳定运行400+天 • 已开源 • github主页： https://opencurve 对数据增删改查 • 快照克隆服务器CURVE基本架构 01 02 03 04 Client总体介绍热升级NEBD总体介绍新版本Client/NEBD性能优化 QEMU、Curve-NBD：上层应用  通过链接curve-client使用curve提供的服务  FileManager：提供接口，记录已挂载卷  FileInstance：对应一个已挂载的卷  LeaseExecu 实现了Curve-NBD，与内核NBD模块进行交互可以作为容器的数据存储 CSI插件也已经开源： https://github.com/opencurve/curve-csi CLIENT上层应用CLIENT虚拟块设备CLIENT主要功能  提供接口  数据面：AioWrite/AioRead、Write/Read  控制面：Create/Delete、Open/Close、Rename等

0 码力 | 27 页 | 1.57 MB | 6 月前
3
Curve 分布式存储设计

无法满足高的性能需求Curve的设计目标 1. Curve云原生软件定义存储 2. Curve块存储 3. Curve文件存储 4. 高性能，易运维，云原生Curve块存储 1. 高性能分布式共享数据库场景 2. Curve块存储提供底层分布式共享存储 3. Polardb for PostgreSQL提供上层高性能数据库服务 4. 性能测试 1. benchmarkSQL 每分钟事务数提升39% 2. pgbench 延迟降低21% TPS提升26% 研究现状Curve块存储 1. 分布式块存储服务 2. KVM块存储服务 3. iSCSI协议 4. 容器云块存储(CSI) 应用场景Curve块存储 1. 高可用性/高可靠性 (易运维) 2. RAFT一致性协议 3. CopySet分配算法 4. 拓扑结构 5. 高性能 6. chunkfilepool (降低写放大) 2. 高性能 3. 可扩展易运维 4. 云原生设计目标Curve文件存储 1. 兼顾性能与容量的机器学习场景 2. 快速跨云弹性发布的业务 3. 低成本大容量需求的业务 4. 中间件冷热数据自动分离 5. S3和POSIX统一访问需求主要挑战和支持场景Curve Roadmap 1. 架构 1. 文件存储支持分布式缓存、完善冷热数据分层存储能力 2. 完善混合云、公有云上部署架构

0 码力 | 20 页 | 4.13 MB | 6 月前
3
curvefs client删除文件和目录功能设计

除此之外，还有以下几个问题需要解决： 1.Trash机制是实现1个(类似chubaofs)，还是2个（类似moosefs）？ moosefs中reseved中的inode数量一般来说不会很多，因为打开文件被另一个进程删除的场景应该不会太多，所以，考虑只实现一个trash就可以了，但是trash中应当有机制可以区分两种情况，比如增加一些flag，以便于使用查看。 moosefs使用2个trash的原因可能是使用不同目录的更为优雅。但是缺点是DEL和UNDEL需，这部分处理会引入。（这个过程其实类似于rename）要在trash下创建和删除dentry 额外的复杂性由于moose是单文件系统，对于我们实现多文件系统，这里还有两种方案：，二是每个fs一个trash，并且trash不能放在fs的根目录下，因为存在跟用户的目录重名的问题。一是使用全局唯一的trash 倾向于使用方案1，各方面实现具可以先实现一个简单的。 3. 是否需要做session机制（在metaserver打开），来维护inode的打开情况？经讨论，需要实现session机制，以应对打开文件被另一个进程删除的场景的场景。方案设计经小组会议讨论，决定使用trash + session机制去实现上述功能。 ulink流程如下：© XXX Page 10 of 15© XXX Page 11 of 15

0 码力 | 15 页 | 325.42 KB | 6 月前
3

共 28 条前往

页

分类

语言

格式