容器服务栈 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

TGT服务器的优化

TGT 服务器的优化块设备协议 • NBD • Linux专有块设备协议 • iSCSI • 广泛支持的外部设备协议（块，磁带等）Curve云原生存储支持块设备 • 通过NBD，只支持Linux • 通过SDK API，目前只支持Linux • PFS • 扩大使用范围 • 通过iSCSI支持更多系统，例如Windows, 类UNIX系统等，使用两项基础技术 • TCP/IP Client端: iscsi initiator，系统自带 • Linux open-iscsi • Windows iSCSI 发起者 • 服务器端 • 必须是CurveBS原生支持的平台，因为需要curve原生接口，目前是LinuxiSCSI target服务器 • LINUX LILO • 一般用于输出内核本地块设备 • TCMU • 作为LILO支持用户态的接口 • 如何评价LILO urve, brpc, c++, protobuf 等) • TCMU多了一层转接，配置过程复杂，业界踩的坑不够多。 • TCMU的用户态代码会受到框架约束，不够灵活。iSCSI target 服务器 • TGT(STGT) • 比较久的历史，原来叫STGT，后来改成TGT • 纯用户态，不与内核绑定 • 支持复杂的存储系统，例如ceph rbd, sheepdog, glfs • 纯C代码，外加一些脚本

0 码力 | 15 页 | 637.11 KB | 6 月前
3
新一代云原生分布式存储

传统意义的块存储：磁盘分布式存储的要素如何构建分布式文件系统？以分布式块存储为例。 •提供大容量的块设备 •可以在指定地址空间内随机读写 write(offset, len) •服务质量要求：数据不能丢、服务随时可用、弹性扩缩容要什么 •成百上千台存储节点 •磁盘故障、机器故障、网络故障概率性发生有什么分布式存储系统需要满足接口需求，并且有持续监控、错误检测、容错与自动恢复的能力数据分布 —— 无中心节点/中心节点均衡地址空间的每段数据会分布在不同机器的磁盘上，如何找到这些数据？可靠性 & 可用性 —— 多副本/EC 服务不可用时间数据一致性 —— 一致性协议如何保证数据不丢？如何保证各种硬件故障的时候读写都正常？可扩展性 —— 和数据分布的方式相关所用容量都用完后，可以新增机器扩展容量分布式存储的要素 163342856 2 58 (4MB, 8MB) 759463473 9 3 (8MB, 16MB) 342165799 5 51 • 映射信息无需记录，直接通过计算获得 • 伪随机算法在服务器数量特别大的时候接近均衡 • 节点故障（DiskNums）变更会涉及其他数据的迁移有中心节点：持久化对应关系 • 需要将数据分布（元数据）持久化 • 中心节点感知集群的信息，进行资源实时调度

0 码力 | 29 页 | 2.46 MB | 6 月前
3
BRPC与UCX集成指南

EchoRequest EchoResponse5 BRPC简介 ●Channel类 –代表一个连接，Client通过Channel发送请求和接收应答 ●Server类 –代表一个服务器，可以注册不同的接口服务，例如上面的EchoService6 BRPC SERVER7 BRPC SERVER8 BRPC client9 BRPC EndPoint EndPoint是一个代表通讯地址的数据结构来，自动选择最快路径传输。 ●高级特性 –大消息报文的自动分片传输 –Active message, atomic operation, tag match, stream27 典型的RDMA栈28 UCX 编程的一些基本概念 ●Context –收集机器资源（内存，网卡等)，在应用的各个部分共享 ●Worker –完成ucx的功能，可以在应用程序中调用的函数（不是单独执行的线程） f_order为true，接收端乱序提交 –--brpc_ucp_close_flush，release connection时发送未未完成的报文，不是必须的，因为 brpc通常是需要接收应答的,服务器端一般不主动关闭连接，客户端主动关闭，自己负责是否有未接收完的应答。56 修改BRPC的EndPoint ●原始的EndPoint类，不能识别网络连接的类型，默认只有TCP –现在有了UCX

0 码力 | 66 页 | 16.29 MB | 6 月前
3
Curve 分布式存储设计

3. Polardb for PostgreSQL提供上层高性能数据库服务 4. 性能测试 1. benchmarkSQL 每分钟事务数提升39% 2. pgbench 延迟降低21% TPS提升26% 研究现状Curve块存储 1. 分布式块存储服务 2. KVM块存储服务 3. iSCSI协议 4. 容器云块存储(CSI) 应用场景Curve块存储 1. 高可用性/高可靠性 9. 云原生核心设计Curve块存储 1. physical pool用于实现对机器资源物理隔离 2. zone故障隔离的基本单元 3. server表示物理服务器 4. chunkserver物理服务器上的服务实例拓扑结构Curve块存储 1. Curve块存储将虚拟块设备映射到文件 2. 每个文件包含的chunk分散在集群的存储节点 3. chunkserver按照故障域分组 Chunkserver服务Curve块存储性能设计Curve块存储在线升级设计 1. 客户端分成NebdClient与 NebdServer两部分 2. NebdClient只做简单的转发 3. NebdServer实现大部分的客户端逻辑Curve块存储故障对I/O抖动延迟的影响 FAULTS CASE CURVE I/O 抖动Curve文件存储 1. 元数据服务 2. 高性能

0 码力 | 20 页 | 4.13 MB | 6 月前
3
Curve核心组件之Client - 网易数帆

Client • 对元数据增删改查 • 对数据增删改查 • 快照克隆服务器CURVE基本架构 01 02 03 04 Client总体介绍热升级NEBD总体介绍新版本Client/NEBD性能优化 QEMU、Curve-NBD：上层应用  通过链接curve-client使用curve提供的服务  FileManager：提供接口，记录已挂载卷  FileInstance：对应一个已挂载的卷 on API https://github.com/opencurve/curve-qemu-block-driver NBD：实现了Curve-NBD，与内核NBD模块进行交互可以作为容器的数据存储 CSI插件也已经开源： https://github.com/opencurve/curve-csi CLIENT上层应用CLIENT虚拟块设备CLIENT主要功能  提供接口

0 码力 | 27 页 | 1.57 MB | 6 月前
3
NJSD eBPF 技术文档 - 0924版本

12之前 initial RTO是⼀个常数1s • 应⽤类型BPF_PROG_TYPE_SOCK_OPS • HOOK BPF_SOCK_OPS_TIMEOUT_INIT • 内核中调⽤栈 • tcp_timeout_init • tcp_call_bpf(BPF_SOCK_OPS_TIMEOUT_INI T) • bpf_cgrougp_run_sock_ops •

0 码力 | 20 页 | 7.40 MB | 6 月前
3
Bazel

cache/bazel:/root/.cache/bazel -it opencurvedocker/curve-base:build-debian11 # 容器内 cd /curve/curvefs make build os=debian11 # 容器外 # curvefs sudo make image os=debian11 tag=harbor.cloud.netease.com/cur

0 码力 | 6 页 | 4.69 MB | 6 月前
3
Open Flags 调研

当pathname对应的文件不存在时则创建它，文件uid为进程uid，gid为进程gid或父目录gid（取决于SGID是否置位）；当flags中出现O_CREAT 或 O_TMPFILE时，mode参数必须提供，否则会使用栈中随机字节填充；通常在没有ACL的情况下，有效的mode是经过与进程mask作用后的结果（mode & ~mask)。 # symbolic constants S_IRWXU 00700 S_IRUSR

0 码力 | 23 页 | 524.47 KB | 6 月前
3
Curve元数据节点高可用

致client端无法写入。因此，mds需要做高可用。满足多个mds, 但同时只有一个mds节点提供服务，称该提供服务的mds节点为主，等待节点为备；主节点的服务挂掉之后，备节点能启动服务，尽量减小服务中断的时间。需要解决的问题就是：如何确定主备节点。 2. 技术选型提供配置共享和服务发现的系统比较多，其中最为大家熟知的就是zookeeper和etcd, 考虑当前系统中mds有两个外部依赖模块，一是mysql， --write-out=json revision: 5 3.2.2 举例说明Campagin流程场景描述：三个mds(mds1, mds2, mds3)，希望实现一个mds作为主提供服务，另外两个mds作为备在主挂掉的时候提供服务的功能。如果利用上述的Campagin进行选举，过程如下：正常情况： step1: 三个mds向etcdserver写入带有相同前缀的key，etcd会给每个key一个版本号(revision: 一是MDS1定期去get Leader/MDS1失败后MDS退出 [事件1] 二是MDS2收到Leader/MDS1被删除，MDS2开始提供服务 [事件2] 如果事件1先发生，那么就是MDS1退出后，MDS2再当选为leader, 如果事件2先发生，那么就是MDS2当选为leader时，MDS1还在提供服务，，这是有问题的。出现双主双主出现的时间有多久呢？如下图：双主的时间为PeriodicGetTime ①

0 码力 | 30 页 | 2.42 MB | 6 月前
3
Curve文件系统元数据管理

6、curve文件系统的多文件系统的设计 1、设计一个分布式文件系统需要考虑的点：文件系统的元数据是否全缓存？元数据持久化在单独的元数据服务器上？在磁盘上？在volume上？ inode+dentry方式？当前curve块存储的kv方式？是否有单独的元数据管理服务器？ 2、其他文件系统的调研总结 fs 中心化元数据内存namespace元数据内存空间分配元数据元数据持久化元数据扩展 moosefs（mfs）有元数据服务器全内存 fsnode → hashtable(inode id) fsedge → hashtable (parent inode + name) 全内存 chunk → hashtable(chunk id) log + dump record 差否 chunk 链式多副本 overwirte有数据不一致风险 chubaofs（cfs）有元数据服务器 inode 更适合大文件顺序写 fastcfs 有元数据服务器 inode和dentry放一个结构体。 inode → hashtable（key是ino，全局） dentry → skip list （key是name，每个目录下一个）计算出来的 binlog，随时间会越来越大差 DG Master/Slave glusterfs 无中心化服务器 dht算法 hash 扩展时大量迁移

0 码力 | 24 页 | 204.67 KB | 6 月前
3

共 23 条前往

页

分类

语言

格式

TGT服务器的优化

新一代云原生分布式存储

BRPC与UCX集成指南

Curve 分布式存储设计

Curve核心组件之Client - 网易数帆

NJSD eBPF 技术文档 - 0924版本

Bazel

Open Flags 调研

Curve元数据节点高可用

Curve文件系统元数据管理