流量监控 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve质量监控与运维 - 网易数帆

C u r v e 质量、监控与运维秦亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等多种场景自研的分布式存储系统：  高性能、低延迟  当前实现了高性能块存储，对接OpenStack和 K8s  网易内部线上无故障稳定运行近两年  已完整开源需要利用科学的方法论和专业的工具，在整个软件生命周期内更好地为用户服务：  质量——向用户交付稳定可靠的软件；  监控——直观地展示Curve运行状态；  运维——保障Curve始终稳定高效运行。质量 ✓ 质量管理体系（设计、开发、review、CI） ✓ 测试方法论（单元测试、集成测试、系统测试）监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示运维 ✓ 运维特性（易部署、易升级、自治）（易部署、易升级、自治） ✓ 运维工具（部署工具、管理工具） 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量软件质量的定义是：软件与明确地和隐含地定义的需求相一致的程度。为了确保最终交付的软件满足需求，必须将质量控制贯穿于设计、开发到测试的整个流程中。设计  设计流程  文档规范开发  编码规范与提交流程  版本管理

0 码力 | 33 页 | 2.64 MB | 6 月前
3
PolarDB开源生态介绍 - 杭州Meetup 2022.10.15

github、官网、钉钉、微信、B站、知乎、csdn、... • 峰会 • 大咖说.对话开源 • meetup • 荣誉墙技能栏目: 3万/场曝光流量影响力栏目: up 500万/场曝光流量竞技栏目: 100万/场曝光流量 • SIG • Issue 开源代码协作 • 理事会 • 人才发展委员会 • 技术委员会开源社区治理 • 联合解决方案|产品 • OxM发型版

0 码力 | 7 页 | 1.45 MB | 6 月前
3
Curve设计要点

MDS、Snapshotcloneserver 通过 etcd 选主，实现高可用高可用 chunkserver 使用raft，2N + 1 个副本允许 N 副本异常自治 • 自动故障恢复 • 多对多，恢复时间短 • 精确的流量控制，对io几乎无影响自治 • 集群负载和资源均衡 • leader copyset scatter-width • 无需人工干预 • 对io影响几乎无影响易运维 • 升级秒级影响 • 客户端采用CS架构

0 码力 | 35 页 | 2.03 MB | 6 月前
3
Curve核心组件之mds – 网易数帆

减少复制组数量：如果一个数据节点存在 256K个复制组，复制组的内存资源占用将会非常恐怖；复制组之间的通信将会非常复杂，例如复制组内Primary给Secondary定期发送心跳进行探活，在256K个复制组的情况下，心跳的流量将会非常大；而引入CopySet的概念之后，可以以CopySet的粒度进行探活、配置变更，降低开销。 3. 提高数据可靠性：在数据复制组过度打散的情况下，在发生多个节点同时故障的情况下，数据的可靠性会受

0 码力 | 23 页 | 1.74 MB | 6 月前
3
Curve元数据节点高可用

5.1 事件一先发生 4.2.5.2 事件二先发生 4.2.6 异常情况4：Etcd集群的follower节点异常 4.2.7 各情况汇总 1. 需求 mds是元数据节点，负责空间分配，集群状态监控，集群节点间的资源均衡等，mds故障可能会导致client端无法写入。因此，mds需要做高可用。满足多个mds, 但同时只有一个mds节点提供服务，称该提供服务的mds节点为主，等待节点为备；主 ②定期去etcd server中get leader/MDS1，看是否还存在。这里涉及到定期get的时间 PeriodicGetTime，以及get超时的时间 GetTimeout ③使用Observe监控指定前缀的key的最小版本的变化情况。© XXX Page 19 of 30 1. 2. 1. 该部分涉及到的参数说明：参数说明当前配置 ElectionTimeout mds2当选leader之后，同样与etcd server有三类交互： ①与etcd server维持租约。 ②定期去etcd server中get leader/MDS2，看是否还存在。 ③使用Observe监控指定前缀的key的最小版本的变化情况。© XXX Page 21 of 30 1. 2. 3. 1. 2. 1. 4.2.3 异常情况2：Etcd集群的lea

0 码力 | 30 页 | 2.42 MB | 6 月前
3
副本如何用CLup管理PolarDB

 PostgreSQL/PolarDB集群统一管理、统一运维。  PostgreSQL/PolarDB集群可以用功能（即故障自动切换）  实现对PostgreSQL/PolarDB的监控管理  对PostgreSQL/PolarDB的TopSQL的管理  架构说明  有一台机器上部署的CLup管理节点，这个管理节点提供WEB管理界面统一管理所有的 PostgreSQL/PolarDB数据库。数据同步复制写请求读请求应用层负载均衡器 CLup高可用及读写分离功能http://www.csudata.com │中启乘数科技（杭州）有限公司数据赋能│价值创新 Clup管理界面-性能监控http://www.csudata.com │中启乘数科技（杭州）有限公司数据赋能│价值创新 CLUP TOP SQL功能http://www.csudata.com │中启乘数科技（杭州）有限公司

0 码力 | 34 页 | 3.59 MB | 6 月前
3
新一代云原生分布式存储

write(offset, len) •服务质量要求：数据不能丢、服务随时可用、弹性扩缩容要什么 •成百上千台存储节点 •磁盘故障、机器故障、网络故障概率性发生有什么分布式存储系统需要满足接口需求，并且有持续监控、错误检测、容错与自动恢复的能力以达到高可靠、高可用、高可扩分布式存储的要素要素拆解数据分布 —— 无中心节点/中心节点均衡地址空间的每段数据会分布在不同机器的磁盘上，如 Curve Ceph 加盘对IO无影响秒级io影响服务端升级对IO无影响重启管控面IO无影响，重启osd io秒级影响客户端升级热升级，秒级抖动不支持热升级，需要业务停服集群监控丰富的metric metric类型较少主要亮点 — 更稳定异常场景 Curve Ceph 坏盘基本无抖动无明显抖动慢盘 io持续抖动，但util未100% io持续抖动，util持续100%

0 码力 | 29 页 | 2.46 MB | 6 月前
3
NJSD eBPF 技术文档 - 0924版本

GETATTR流程 • ⽂件读取流程 • 相关⼯作 • extFUSE • google android12 passthrough什么是eBPF • ebpf是不同环境下内核配置，调试，监控⼯具 • map映射 • 验证器 • Hook • Helper api配置TCP Initial RTO • 场景内核4.12之前 initial RTO是⼀个常数1s •

0 码力 | 20 页 | 7.40 MB | 6 月前
3
PFS SPDK: Storage Performance Development Kit

总体架构10/17/22 17 TCP也可以部分零copy ●读写盘的部分是零copy的 ●网络部分依赖内核tcp，不是零copy10/17/22 18 进展 ●还在测试CurveBS ●布置、监控等工具需要更新10/17/22 19 性能测试 ●使用pfs daemon测试 ●估计非daemon模式的会更快一点，因为没有跨进程开销10/17/22 20 Write,DMA write

0 码力 | 23 页 | 4.21 MB | 6 月前
3
Curve核心组件之chunkserver

隆相关的内容将会在快照克隆相关介绍文档中详细介绍。 ChunkServer架构Metric统计模块使用brpc中的bvar计数器，统计一些IO层面和copyset层面的一些指标，方便监控和跟踪。 ChunkServer架构并发控制层，负责对chunkserver的IO 请求进行并发控制，对上层的读写请求安照chunk粒度进行Hash，使得不同 chunk的请求可以并发执行。

0 码力 | 29 页 | 1.61 MB | 6 月前
3

共 10 条前往

页

分类

语言

格式

Curve质量监控与运维 - 网易数帆

PolarDB开源生态介绍 - 杭州Meetup 2022.10.15

Curve设计要点

Curve核心组件之mds – 网易数帆

Curve元数据节点高可用

副本如何用CLup管理PolarDB

新一代云原生分布式存储

NJSD eBPF 技术文档 - 0924版本

PFS SPDK: Storage Performance Development Kit

Curve核心组件之chunkserver