故障定位 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve设计要点

是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟 • 可支撑储场景：块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储，对接OpenStack和 K8s 网易内部线上无故障稳定运行一年多，线上异常演练 • 已开源 • github主页： https://opencurve.github.io/ • github代码仓库： https://github.com/opencurve/curve 多个单副本的 chunk 形成 EC 组一个对象作为 EC 组的一个满条带挖洞即时空间回收拓扑 • 管理和组织机器 • 软件单元：chunkserver • 物理机：server • 故障域：zone • 物理池：poolIO流程 client MDS leader Chunk server 1、发起请求 2、查询元数据 5、返回结果 5、返回结果 user 3、查询leader节点核心组件支持多实例部署，允许部分实例异常 MDS、Snapshotcloneserver 通过 etcd 选主，实现高可用高可用 chunkserver 使用raft，2N + 1 个副本允许 N 副本异常自治 • 自动故障恢复 • 多对多，恢复时间短 • 精确的流量控制，对io几乎无影响自治 • 集群负载和资源均衡 • leader copyset scatter-width • 无需人工干预 • 对io影响几乎无影响易运维

0 码力 | 35 页 | 2.03 MB | 6 月前
3
Curve质量监控与运维 - 网易数帆

Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等多种场景自研的分布式存储系统：  高性能、低延迟  当前实现了高性能块存储，对接OpenStack和 K8s  网易内部线上无故障稳定运行近两年  已完整开源 • github主页： https://opencurve.github.io/ • github代码仓库： https://github.com/opencurve/curve 单元测试 1300+用例行覆盖80%+，分支覆盖70%+  集成测试 Given When Then 设计方法 500+用例  异常测试 40+自动化用例  混沌测试 20轮自动化随机故障注入 12/33单元测试单元测试是软件开发的过程中最基本的测试，它用来对一个模块、一个函数或者一个类来进行正确性检验的测试工作。 curve通过lcov统计代码覆盖率，衡量单元测试的完备程度，如下图所示：  性能测试，将性能数据与基准对照，确定性能没有出现预期外的下降或提升；  稳定性测试，在正常压力下运行足够长的时间；  异常测试，在正常流程中注入一种软硬件异常；  混沌测试，大压力多级故障（随机组合软硬件异常）。在系统测试过程中，我们尽可能将所有用例自动化，其优点是：  大幅降低了测试回归成本，加快了测试进度；  可以对代码进行足够频繁的测试，有利于提高代码质量； 

0 码力 | 33 页 | 2.64 MB | 6 月前
3
新一代云原生分布式存储

以分布式块存储为例。 •提供大容量的块设备 •可以在指定地址空间内随机读写 write(offset, len) •服务质量要求：数据不能丢、服务随时可用、弹性扩缩容要什么 •成百上千台存储节点 •磁盘故障、机器故障、网络故障概率性发生有什么分布式存储系统需要满足接口需求，并且有持续监控、错误检测、容错与自动恢复的能力以达到高可靠、高可用、高可扩分布式存储的要素要素拆解数据分布 —— 地址空间的每段数据会分布在不同机器的磁盘上，如何找到这些数据？可靠性 & 可用性 —— 多副本/EC 服务不可用时间数据一致性 —— 一致性协议如何保证数据不丢？如何保证各种硬件故障的时候读写都正常？可扩展性 —— 和数据分布的方式相关所用容量都用完后，可以新增机器扩展容量分布式存储的要素 — 数据分布无中心节点：哈希算法 INPUT (Offset, Len) 51 • 映射信息无需记录，直接通过计算获得 • 伪随机算法在服务器数量特别大的时候接近均衡 • 节点故障（DiskNums）变更会涉及其他数据的迁移有中心节点：持久化对应关系 • 需要将数据分布（元数据）持久化 • 中心节点感知集群的信息，进行资源实时调度 • 节点故障不会涉及其他的数据迁移 KEY (Offset, Len) VALUE (DiskID) (0, 4MB)

0 码力 | 29 页 | 2.46 MB | 6 月前
3
Curve 分布式存储设计

器资源物理隔离 2. zone故障隔离的基本单元 3. server表示物理服务器 4. chunkserver物理服务器上的服务实例拓扑结构Curve块存储 1. Curve块存储将虚拟块设备映射到文件 2. 每个文件包含的chunk分散在集群的存储节点 3. chunkserver按照故障域分组 4. copyset中的节点属于不同的故障域数据组织Curve块存储在线升级设计 1. 客户端分成NebdClient与 NebdServer两部分 2. NebdClient只做简单的转发 3. NebdServer实现大部分的客户端逻辑Curve块存储故障对I/O抖动延迟的影响 FAULTS CASE CURVE I/O 抖动Curve文件存储 1. 元数据服务 2. 高性能 3. 可扩展易运维 4. 云原生设计目标Curve文件存储

0 码力 | 20 页 | 4.13 MB | 6 月前
3
Curve核心组件之mds – 网易数帆

是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟 • 可支撑储场景：块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储，对接OpenStack和 K8s 网易内部线上无故障稳定运行一年多 • 已开源 • github主页： https://opencurve.github.io/ • github代码仓库： https://github.com/opencurve/curve 以面向业务提供如下功能和非功能需求。 1. 故障域的隔离：比如副本的放置分布在不同机器，不同机架，或是不同的交换机下面。 2. 隔离和共享：不同用户的数据可以实现固定物理资源的隔离和共享。 • pool: 用于实现对机器资源进行物理隔离，server不能跨 Pool交互。运维上，建议以pool为单元进行物理资源的扩容。 • zone: 故障隔离的基本单元，一般来说属于不同zone的机况下，心跳的流量将会非常大；而引入CopySet的概念之后，可以以CopySet的粒度进行探活、配置变更，降低开销。 3. 提高数据可靠性：在数据复制组过度打散的情况下，在发生多个节点同时故障的情况下，数据的可靠性会受到影响。引入CopySet，可提高分布式存储系统中的数据持久性，降低数据丢失的概率。COPYSET ChunkServer，Copyset和Chunk三者之间的关系如下图：

0 码力 | 23 页 | 1.74 MB | 6 月前
3
Curve核心组件之Client - 网易数帆

CURVE是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟存储底座 • 可扩展存储场景：块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储，对接 OpenStack 和 k8s • 网易内部线上无故障稳定运行400+天 • 已开源 • github主页： https://opencurve.github.io/ • github代码仓库： https://github.com/opencurve/curveCURVE基本架构

0 码力 | 27 页 | 1.57 MB | 6 月前
3
Curve核心组件之chunkserver

CURVE是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟存储底座 • 可扩展存储场景：块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储，对接 openstack 和 k8s 网易内部线上无故障稳定运行500+天 • 已开源 • github主页： https://opencurve.github.io/ • github代码仓库： https://github.com/opencurve/curveCURVE基本架构

0 码力 | 29 页 | 1.61 MB | 6 月前
3
CurveFS Copyset与FS对应关系

RecoverScheduler: 恢复调度器。根据当前copyset副本的存活状态生成迁移任务。结论：心跳参考curve。目前这些调度器在curvefs第一阶段不用全部实现。所有和均衡相关的，暂时不做。只做和故障处理相关的副本补全恢复的调度。 6、详细设计 6.1 创建fs curvefs管理工具发起创建fs命令，mds收到createfs命令之后，在mds插入的一条fs记录，状态为NEW。然后为fs

0 码力 | 19 页 | 383.29 KB | 6 月前
3
Curve元数据节点高可用

事件二先发生 4.2.6 异常情况4：Etcd集群的follower节点异常 4.2.7 各情况汇总 1. 需求 mds是元数据节点，负责空间分配，集群状态监控，集群节点间的资源均衡等，mds故障可能会导致client端无法写入。因此，mds需要做高可用。满足多个mds, 但同时只有一个mds节点提供服务，称该提供服务的mds节点为主，等待节点为备；主节点的服务挂掉之后，备节点能启动服务，尽量减小服务中断的时间。

0 码力 | 30 页 | 2.42 MB | 6 月前
3
Curve支持S3 数据缓存方案

由于chunk大小是固定的（默认64M），所以Inode中采用map s3ChunkInfoMap用于保存对象存储的位置信息。采用2级索引的好处是，根据操作的offset可以快速定位到index，则只需要遍历index相关的S3ChunkInfoList，减少了遍历的范围。对象名设计对象名采用chunkId+blockindex+compaction（后台碎片整理才会使

0 码力 | 9 页 | 179.72 KB | 6 月前
3

共 11 条前往

页

分类

语言

格式

Curve设计要点

Curve质量监控与运维 - 网易数帆

新一代云原生分布式存储

Curve 分布式存储设计

Curve核心组件之mds – 网易数帆

Curve核心组件之Client - 网易数帆

Curve核心组件之chunkserver

CurveFS Copyset与FS对应关系

Curve元数据节点高可用

Curve支持S3 数据缓存方案