CPU使用太高 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

BRPC与UCX集成指南

–bthread协程(m:n调度，减少基于内核的下文切换，减少cache miss) ●多协议支持 –baidu_std,http,grpc… ●protobuf3 BRPC简介 ●Client/Server架构 ●使用Protobuf定义协议文件 –例如: echo.proto:4 BRPC简介 client server EchoRequest EchoResponse5 BRPC简介 ●Channel类 ●往SocketMap里调用Insert，要么返回已经存在的Socket对象（引用计数加一)，要么创建一个新的12 BRPC EventDispatcher ●是socket事件分发的中心 ●使用epoll和边沿触发 ●提供监视一个fd是否可读写，并调用对应socket对象的成员函数1314 Socket 输入事件处理15 Socket options ●是创建socket的参数 ●主要成员: compare and set ●Tag match ●client/server模式的Listener, Ep(endpoint)26 UCP ●构建于uct之上，实现更加高级的功能,容易使用，但有一定开销。 ●UCT和UCP两者都有context概念，但是UCT只对一块网卡，而UCP把若干个UCT组合起来，自动选择最快路径传输。 ●高级特性 –大消息报文的自动分片传输 –Active

0 码力 | 66 页 | 16.29 MB | 6 月前
3
PFS SPDK: Storage Performance Development Kit

PFS存储引擎10/17/22 2 Why ●为了减少使用cpu做内存copy，减少系统调用 ●发挥某些被操作系统屏蔽的功能，例如nvme write zero ●根据阿里《When Cloud Storage Meets RDMA》的说法 ●在100Gbps网络带宽时，内存带宽成为瓶颈 ●Intel Memory Latency Checker (MLC)测试得到的CPU内存带宽是 61Gbps10/17/22 61Gbps10/17/22 3 RDMA可以减轻CPU负担 ●可以减少CPU操作网络通讯的开销 ●读写内存都由网卡进行offload ●应用程序不再通过系统调用在内核和用户态来回切换10/17/22 4 磁盘的读写 ●基于EXT4的存储引擎，依然需要通过系统调用来回切换 ●读写都需要CPU拷贝数据 ●不能发挥某些NVME的功能，例如write zero10/17/22 5 为什么用PFS ●对代码比较熟悉 ●找一个能管理裸盘，具有产品级可靠性的代码挺难的 ●PFS支持类POSIX文件的接口，与使用EXT4的存储引擎代码很像，所以容易移植现有代码到PFS存储引擎 ●CurveBS对文件系统元数据的操作非常少，对文件系统的要求不高，所以不需要元数据高性能，这方面PFS也合适10/17/22 6 对PFS的修改 ●基于阿里开源的PFS ●不再基于daemon模式，而是直接使用pfs core api ●依然向外提供管理工具, 例如

0 码力 | 23 页 | 4.21 MB | 6 月前
3
TGT服务器的优化

API，目前只支持Linux • PFS • 扩大使用范围 • 通过iSCSI支持更多系统，例如Windows, 类UNIX系统等，使用两项基础技术 • TCP/IP • SCSI • 替代SAN • 可靠性、稳定性方面有自己的的特色，使用raft副本一致性和copyset概念可以自动修复损坏的副本，并且可扩容。无论在可靠性、稳定性还是性价比方面都很有优势，使用廉价硬件搭建。iSCSI软件 • 编写curve驱动，底层异步提交I/O，pipeline • 利用NEBD PART 1接口，需要与nebdserver运行在同一台机器 • 支持共享打开，两台TGT服务器可以同时打开一个curve卷 • 让Initiator可以使用multipath • 支持卷resize • 添加新的命令 • tgtadm --mode logicalunit --op update --tid 1 --lun 1 --params disksize=auto 性能问题主要体现在不能有效使用多CPU • 对多个socket connection，在单线程里做event loop多路复用。 • 多个target时，如果挂的设备多，一旦客户端请求量大，就会忙不过来。 • 开源界有尝试修改 • 例如sheepdog的开发者提交过一个patch，但是测试效果不理想，分析原因，event loop依然是瓶颈对TGT的性能优化 • IO是使用多个epoll 线程，充分发挥多CPU能力

0 码力 | 15 页 | 637.11 KB | 6 月前
3
新一代云原生分布式存储

新一代云原生分布式存储—Curve 上李小翠网易数帆存储团队分布式存储介绍 01 存储的发展 | 分布式存储的分类 | 分布式存储的要素 02 03 04 Ceph 架构简介 | 场景介绍 | 使用中的问题 Curve 架构简介 | 数据对比 | 应用情况 FAQ 答疑存储的发展互联网时代，数据大爆炸大型主机成本高单点问题扩容困难各存储设备通过网络互联大规模 client W W W client分布式存储介绍 01 存储的发展 | 分布式存储的分类 | 分布式存储的要素 02 03 04 Ceph 架构简介 | 块存储场景 | 使用中的问题 Curve 架构简介 | 数据对比 | 应用情况 FAQ 答疑架构简介 — 总体架构开源分布式存储界的扛把子支持块存储、文件存储、对象存储架构简介 — 概念介绍 object：存储单元 Groups 归置组归置组中的成员为副本 OSD：Object Storage Device, 管理一个磁盘的进程架构简介 — 数据放置使用多级哈希的方式使用CRUSH算法根据pgid获得指定的副本个数的id osd.1, osd.2, osd.3 对ObjectID进行哈希并取模（复制组数量）得到pgid head_D35c9011 根据

0 码力 | 29 页 | 2.46 MB | 6 月前
3
Raft在Curve存储中的工程实践

2018~2021 Curve块存储 2021~2022 Curve文件存储 • 基于Openstack构建云计算平台 • 底层存储使用Ceph块存储 • 稳定性挑战 • 算力平台kubernetes的迅速发展 • AI/大数据业务的快速增长 • 存储使用Ceph文件存储/HDFS • 成本/性能挑战 Curve块存储和文件存储均采用raft协议整体架构 • 对接OpenStack平台为云主机提供高性能块型的持久化存储卷 • 对接PolarFS作为云原生数据库的高性能存储底座，完美支持云原生数据库的存算分离架构 • Curve作为云存储中间件使用S3兼容的对象存储作为数据存储引擎，为公有云用户提供高性价比的共享文件存储 • 支持在物理机上挂载使用块设备或FUSE文件系统开源社区社区运营生态共建开源共建源码兜底技术领先目标方法影响力降本获客用户开发者 Curve文件存储 • 分布式文件系统 • 支持多挂载，提供close-to-open一致性 • 提供缓存加速，可使用内存、本地盘、云盘加速 • 存储后端可对接对象存储，降低成本 • 支持生命周期管理 Curve文件存储架构 • client：接受用户请求，采用fuse的方式挂载挂载使用。 • 元数据集群：mds 和 metaserver。 • mds：保存元数据，包括topo信息、文件系统信

0 码力 | 29 页 | 2.20 MB | 6 月前
3
Curve文件系统元数据持久化方案设计

inode 耗时 (MS) 内存 (KB) 顺序编码 13 5079 protobuf 序列化 81 4996 从对比结果来看，10 万条 inode 耗时相差不大（CPU 并不是瓶颈），内存 protobuf 消耗却更少，推介使用 protobuf 进行序列化 2、KVStore 将当前实现中的 MemoryDentryStorage 和 MemoryInodeStorage 抽象成一个 KVStore，对外提供结论：从目前元数据持久化的需要来看，更倾向于自己实现，理由如下： redis 目前不支持单独持久化 redis 中的某个 DB (一个 redis 实例可包含多个 DB) 或数据结构，这对于在要使用 multiraft 的场景下，每个 raft 实例需要独立的快照并不合适如果改造 redis，初步评估了下，其工作量要比自己实现持久化的逻辑要大一些，改造主要是为了让 redis 提供单独 dump/load sava/load 逻辑，比较清晰 redis 中有许多数据结构可供使用，如 (哈希、列表、set、sort_set)，但对于目前的需求来说，我们内存数据结构使用的是 C++ STL 中的哈希表（unsorted_map），之后有可能根据需求换成 B+ 树或跳表，但是 redis 中的这些数据结构我们是不需要的另外，如果 C++ 中的哈希表在后期使用中发现性能不达标的话（特别是在 rehash 扩桶的时候），我们可以把

0 码力 | 12 页 | 384.47 KB | 6 月前
3
Curve核心组件之mds – 网易数帆

通过结合curve的用户系统，LogicalPool可以通过配置限定特定user使用的方式，实现多个租户数据物理隔离（待开发）。TOPOLOGY Topology的实际例子，右侧是topo配置文件：集群有一个物理pool，由3个zone组成，每个zone有1台server。在物理pool上，还创建了一个逻辑pool，逻辑pool使用3个zone，采用 3副本，有100个copyset。 cluster 存储系统的核心问题，也是 curve 是否能上生产环境的决定因素之一。 • 自动容错保证常见异常（如坏盘、机器宕机）导致的数据丢失不依赖人工处理，可以自动修复。 • 负载均衡和资源均衡保证集群中的磁盘、cpu、内存等资源的利用率最大化。SCHEDULE Schdedule的具体实现 Coordinator: 调度模块的对外接口。心跳会将 chunkserver上报上来的copyset信息提交给 Coo 任务计算模块包含了多个定时任务和触发任务。 • 定时任务由调度模块定时触发。 • 触发任务由外部触发，管理员通过工具触发。 • TopoAdapter 用于获取Topology中调度需要使用的数据。 • Common Strategy 是通用的副本添加和移除策略。任务管理: 任务管理模块用于管理计算模块产生的任务。 • operatorController 是任务集合，用于存放和获取任务；

0 码力 | 23 页 | 1.74 MB | 6 月前
3
副本如何用CLup管理PolarDB

共享盘使用阿里云自带的高性能Nvme盘，注意使用Nvme磁盘对可用区有要求： • 华东1（杭州）可用区I • 华东2（上海）可用区B • 华北2（北京）可用区K • 华南1（深圳）可用区F。只有某些规格的虚拟机可以挂载Nvme共享盘： • g7se • c7se • r7se 虚拟机要求是按量付费才可以挂载Nvme共享盘阿里云的VIP功能目前还在内侧阶段，需要申请其他云环境中使用CLup创建Polardb的情况在创建完虚拟机后，在单独添加共享盘注意创建PolarDB需要的阿里云环境创建PolarDB需要的阿里云环境部署集把虚拟机打散到不通的物理机上创建PolarDB需要的阿里云环境 VIP的使用创建PolarDB需要的阿里云环境把VIP绑定到多台数据库主机创建PolarDB需要的阿里云环境创建虚拟机的时候选中的盘都不是共享盘，必须在创建完虚拟机后，在单独添加共享盘创建PolarDB需要的阿里云环境 x86_64-20- @ 使用CLup创建polardb使用CLup创建Polardb使用CLup创建Polardb使用CLup创建Polardb使用CLup创建Polardb使用CLup创建Polardb使用CLup创建Polardb使用CLup创建Polardb使用CLup创建Polardb使用CLup创建Polardb使用CLup创建Polardb使用CLup创建Polardb使用CLup创建Polardb:

0 码力 | 34 页 | 3.59 MB | 6 月前
3
curvefs client删除文件和目录功能设计

return ret; } return ret; } 存在两个问题: 一是删除时nlink字段未考虑：文件的nlink用于实现hard link。 hard link使用nlink字段表示文件的link的引用计数，第一次创建文件是nlink字段为1。每创建一个新的指向该文件的hard link时,nlink字段+1，每删除一个hard link或指向的原文件时，nlink字段-1。© 不会被内核调用（例如client崩溃）相关调研 moosefs moosefs 未对接forget moosefs 实现了在mds上open，因此删除时可以判断文件是否被打开 moosefs使用了两种机制，来实现上述功能，分别是trash机制和reserve机制（最新版本叫sustained），两种机制如下： trash机制：对于所有TYPE_FILE类型的文件在删除时，，则不会立件的客户端因为持有该节点inodeid,所以不影响它对该文件的读写操作，当所有客户端都关闭该文件后，该文件节点才会从被清除。 reserve 使用了session机制，记录client端的open状态通过META文件系统访问reserve 使用CUTOMA_FUSE_RESERVED_INODES消息保持和释放inode 实现了Timer，定期判断是否还有session，如果没有client打开，则进行清理。

0 码力 | 15 页 | 325.42 KB | 6 月前
3
CurveFS Copyset与FS对应关系

8、inode和dentry的内存估算 8.1 一台机器上能存放多少个inode和dentry 8.2 一台机器上建议的copyset数量 8.3 每个copyset建议管理存储容量的大小 1、背景 curvefs使用raft作为元数据一致性的保证。为了提高元数据的可扩展性和并发处理能力，采用元数据分片的方式管理inode和dentry的元数据。inode的分片依据是fsid + inodeid，dentry的分片依据是fsid 对应的copyset在预分配的时候已经确定。后续的读写的操作直接去对应的copyset上去进行读写。这个分配copyset方式，并不适合curvefs的元数据。这种分配方式是提前分配了一批空间，即使用户只需要写4KB数据，也一次性分配1GB的空间。而curvefs的元数据，并不能一次申请一批在client端，而是每次都需要去metaserver上去进行分配。这里需要重新考虑curvefs的创建一个文件系统时，如何初始化meta partition？ master\cluster.go， chubaofs的文件系统使用volume的来表示，在创建一个文件系统的时候，会创建3个meta partition和10个data partition。chubaofs的data partition的功能我们使用curve块设备替换。meta partition的创建，以及meta partition的管理的，下面会详细分析一下。

0 码力 | 19 页 | 383.29 KB | 6 月前
3

共 30 条前往

页

分类

语言

格式

BRPC与UCX集成指南

PFS SPDK: Storage Performance Development Kit

TGT服务器的优化

新一代云原生分布式存储

Raft在Curve存储中的工程实践

Curve文件系统元数据持久化方案设计

Curve核心组件之mds – 网易数帆

副本如何用CLup管理PolarDB

curvefs client删除文件和目录功能设计

CurveFS Copyset与FS对应关系