慢盘监控 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve质量监控与运维 - 网易数帆

C u r v e 质量、监控与运维秦亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等多种场景自研的分布式存储系统：  高性能、低延迟  当前实现了高性能块存储，对接OpenStack和 K8s  网易内部线上无故障稳定运行近两年  已完整开源需要利用科学的方法论和专业的工具，在整个软件生命周期内更好地为用户服务：  质量——向用户交付稳定可靠的软件；  监控——直观地展示Curve运行状态；  运维——保障Curve始终稳定高效运行。质量 ✓ 质量管理体系（设计、开发、review、CI） ✓ 测试方法论（单元测试、集成测试、系统测试）监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示运维 ✓ 运维特性（易部署、易升级、自治）（易部署、易升级、自治） ✓ 运维工具（部署工具、管理工具） 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量软件质量的定义是：软件与明确地和隐含地定义的需求相一致的程度。为了确保最终交付的软件满足需求，必须将质量控制贯穿于设计、开发到测试的整个流程中。设计  设计流程  文档规范开发  编码规范与提交流程  版本管理

0 码力 | 33 页 | 2.64 MB | 6 月前
3
新一代云原生分布式存储

write(offset, len) •服务质量要求：数据不能丢、服务随时可用、弹性扩缩容要什么 •成百上千台存储节点 •磁盘故障、机器故障、网络故障概率性发生有什么分布式存储系统需要满足接口需求，并且有持续监控、错误检测、容错与自动恢复的能力以达到高可靠、高可用、高可扩分布式存储的要素要素拆解数据分布 —— 无中心节点/中心节点均衡地址空间的每段数据会分布在不同机器的磁盘上，如延迟取决于所有副本中最慢的那一个块存储场景为云主机提供云盘，云盘提供随机读写、快照（数据备份，灾备使用）、镜像（模板，自定义）功能。块存储场景为物理机提供块设备 Linux IO栈应用程序 -> 文件系统 -> 块设备层 -> 不同协议/驱动使用中的问题 • io抖动（一致性协议）：异常场景（比如阵列卡一致性巡检，坏盘，慢盘，网络异常），服务升级 • 性能差（一致性协议）：在通用易运维运维场景 Curve Ceph 加盘对IO无影响秒级io影响服务端升级对IO无影响重启管控面IO无影响，重启osd io秒级影响客户端升级热升级，秒级抖动不支持热升级，需要业务停服集群监控丰富的metric metric类型较少主要亮点 — 更稳定异常场景 Curve Ceph 坏盘基本无抖动无明显抖动慢盘 io持续抖动，但util未100% io持续抖动，util持续100%

0 码力 | 29 页 | 2.46 MB | 6 月前
3
副本如何用CLup管理PolarDB

 PostgreSQL/PolarDB集群统一管理、统一运维。  PostgreSQL/PolarDB集群可以用功能（即故障自动切换）  实现对PostgreSQL/PolarDB的监控管理  对PostgreSQL/PolarDB的TopSQL的管理  架构说明  有一台机器上部署的CLup管理节点，这个管理节点提供WEB管理界面统一管理所有的 PostgreSQL/PolarDB数据库。 Clup管理界面-性能监控http://www.csudata.com │中启乘数科技（杭州）有限公司数据赋能│价值创新 CLUP TOP SQL功能http://www.csudata.com │中启乘数科技（杭州）有限公司数据赋能│价值创新 Clup管理界面-在Web界面中管理数据库-9- @ PolarDB环境准备创建PolarDB的要求  安装要求 需要有共享盘：盘的大小需要大于等于20GB CLup的高可用需要VIP 操作系统：CentOS7.X 盘要求有路径：/dev/nvmeXnY  机器需求 4台虚拟机器或物理机 1台做CLup管理节点：内存大于2GB 3台做数据库节点：内存需要大于4GB，最好有反亲和性，即能分布在不同的物理机上以保证高可用性阿里云的环境中创建Polardb的方法共享盘使用阿里云自带的高性能Nvme盘，注意使用Nvme磁盘对可用区有要求： • 华东1（杭州）可用区I

0 码力 | 34 页 | 3.59 MB | 6 月前
3
Curve设计要点

03 04 总体设计系统特性近期规划背景 • 多个存储软件：SDFS、NEFS、NBS • 已有的开源软件：Ceph • 不能胜任性能、延迟敏感的场景 • 异常场景抖动较大（比如慢盘场景） • 去中心节点设计在集群不均衡的情况下需要人工运维 • 基于通用分布式存储构建上层存储服务背景 01 02 03 04 总体设计系统特性近期规划基本架构 • 元数据节点测试环境：6台服务器*20块SATA SSD，E5-2660 v4，256G，3副本场景高性能高性能 • quorum机制：raft • 轻量级快照 • io路径上的优化 • filepool落盘零放大 • 轻量级线性一致性读 • io路径上用户空间零拷贝 10卷4K随机读写IOPS 294k 185k 330k 565k 4K随机写 4K随机读 Ceph（L/N） Curve

0 码力 | 35 页 | 2.03 MB | 6 月前
3
Curve核心组件之chunkserver

器，统计一些IO层面和copyset层面的一些指标，方便监控和跟踪。 ChunkServer架构并发控制层，负责对chunkserver的IO 请求进行并发控制，对上层的读写请求安照chunk粒度进行Hash，使得不同 chunk的请求可以并发执行。 ChunkServer架构DataStore是对chunk落盘逻辑的封装。包含chunkfile的创建、删除，以及实际对 stermAdaptor是对底层文件系统的一层抽象，目前适配封装了ext4 文件系统的接口。之所以要做这层抽象，目的是隔离了底层文件系统的实际读写请求，如果将来curve要适配裸盘或者采用其他文件系统，可以在这层进行适配。 ChunkServer架构CURVE基本架构 01 02 03 04 ChunkServer架构 ChunkServer核心模块新版本C 本地持久化log entry成功，并且有一个peer也落盘成功，则commit 5. Commit后apply，此时把写请求写到chunkChunkServer核心模块-CopysetNode 坏盘（CS1对应的盘）后的迁移流程初始状态，copyset1，copyset2，copyset3的三个副本分别在 CS1,CS3,CS4上，完成迁移后，CS1上的副本迁移到CS2上 ① CS1超时未向MDS上报心跳（默认半小时）

0 码力 | 29 页 | 1.61 MB | 6 月前
3
PFS SPDK: Storage Performance Development Kit

●基于EXT4的存储引擎，依然需要通过系统调用来回切换 ●读写都需要CPU拷贝数据 ●不能发挥某些NVME的功能，例如write zero10/17/22 5 为什么用PFS ●对代码比较熟悉 ●找一个能管理裸盘，具有产品级可靠性的代码挺难的 ●PFS支持类POSIX文件的接口，与使用EXT4的存储引擎代码很像，所以容易移植现有代码到PFS存储引擎 ●CurveBS对文件系统元数据的操作非常少，对文件系统的要求不高， ●IO vector的接口主要是为了与brpc的iobuf对接，iobuf由若干地址不连续的block组成，一次IO提交可以提高效率。10/17/22 8 PFS+SPDK 的部分读写的实现 ●某些盘只支持4k单位读写，但是CurveBS支持512字节读写 ●可能存在部分写的并发冲突 ●引入并发的range lock解决冲突10/17/22 9 PFS+SPDK 的DMA支持 ●ssize_t 总体架构10/17/22 17 TCP也可以部分零copy ●读写盘的部分是零copy的 ●网络部分依赖内核tcp，不是零copy10/17/22 18 进展 ●还在测试CurveBS ●布置、监控等工具需要更新10/17/22 19 性能测试 ●使用pfs daemon测试 ●估计非daemon模式的会更快一点，因为没有跨进程开销10/17/22 20 Write,DMA write

0 码力 | 23 页 | 4.21 MB | 6 月前
3
Curve文件系统元数据管理

，（） Apache B+tree 内部结点不保存数据，只有叶子结点保存数据。 https://github.com/begeekmyfriend/bplustree，（MIT），实现了落盘 BST O(log(n)) O(n) c++ stl 模板© XXX Page 4 of 24 skip list O(log(n)) O(n) level db，https://github block这种，剩下的比如inode，dentry这种，按需加载，而且使用淘汰机制，内存中不常用的元数据可以淘汰出去。这种方式，扩展性好，元数据服务的扩展性不受限于内存，服务上的内存只有几百GB，而硬盘空间按照20块1.6TB的盘来计算，一个服务器上可以有32TB的空间，硬盘的空间比内存到100多倍。但是这种方式，由于数据不能去全部缓存到内存，在查询元数据的时候，需要去盘上读数据，而且在文件系统这种使用场景下，一次对文件的查找，需要在磁盘上读取多次。，对应着一条记录，根据记录去修改内存数据。按照之前的讨论，curve文件系统的元数据管理采取先写log的方式。这里先不考虑log的组成形式。那么curve文件系统的应该是先写log，log落盘之后，更新内存。场景三：系统退出的时候，元数据的持久化如果采用raft的方式对元数据持久化，任务数据的修改都先持久化再修改内存。那么就不存在的系统推出的时候对元数据持久化。对业

0 码力 | 24 页 | 204.67 KB | 6 月前
3
Raft在Curve存储中的工程实践

raft的apply，直接在对应的chunk上写入数据。Curve文件存储RAFT应用 Curve文件存储 • 分布式文件系统 • 支持多挂载，提供close-to-open一致性 • 提供缓存加速，可使用内存、本地盘、云盘加速 • 存储后端可对接对象存储，降低成本 • 支持生命周期管理 Curve文件存储架构 • client：接受用户请求，采用fuse的方式挂载挂载使用。 • 元数据集群：mds 和 metaserver。通过心跳维持mds和chunkserver/metaserve的数据交互 • mds发起配置变更，copyset复制组执行 • 在curve自动容错和负载均衡时，需要进行raft配置变更。 • 自动容错保证常见异常（如坏盘、机器宕机）导致的数据丢失不依赖人工处理，可以自动修复。 • 负载均衡和资源均衡保证集群中的磁盘、cpu、内存等资源的利用率最大化。 Curve块存储和文件存储的配置变更实现基本一致CURVE的RAFT配置变更

0 码力 | 29 页 | 2.20 MB | 6 月前
3
Curve 分布式存储设计

主要挑战和支持场景Curve Roadmap 1. 架构 1. 文件存储支持分布式缓存、完善冷热数据分层存储能力 2. 完善混合云、公有云上部署架构 3. 完善高性能3副本存储引擎，支持混合盘 4. 文件存储支持数据存储到HDFS、rados等引擎 2. 性能 1. 完善RDMA/SPDK方案，发布稳定版本 2. 更高性能硬件选型、适配及性能调优 3. 大文件读写性能优化，RAFT优化，降低写放大

0 码力 | 20 页 | 4.13 MB | 6 月前
3
CurveFS S3本地缓存盘方案

借用linux本地文件系统进行管理，存储进本地硬盘的内容以文件的形式来表现。配置一个目录用于本地硬盘的文件管理，对作为缓存盘的本地硬盘进行格式化并挂载到该目录(如果没有缓存盘，那一般而言就是系统盘本身了)。本地缓存盘的文件内容表示本地缓存盘存放的文件即是存储到对象存储中的对象。写缓存如何作为读缓存利用除了写缓存目录，另外引入读缓存目录；当写缓存目录中有新文件加入时，则对该文件做硬链接到读缓存目录。

0 码力 | 9 页 | 150.46 KB | 6 月前
3

共 17 条前往

页

分类

语言

格式

Curve质量监控与运维 - 网易数帆

新一代云原生分布式存储

副本如何用CLup管理PolarDB

Curve设计要点

Curve核心组件之chunkserver

PFS SPDK: Storage Performance Development Kit

Curve文件系统元数据管理

Raft在Curve存储中的工程实践

Curve 分布式存储设计

CurveFS S3本地缓存盘方案