 Curve核心组件之Client - 网易数帆将请求发往leader节点CLIENT IO线程模型 用户线程 1. 用户调用接口,发起IO请求 2. AioWrite将请求封装成io task并放入任务队列 3. 放入任务队列后,异步请求发起成功,返回用户 IO拆分线程 4. 从任务队列取出任务后进行拆分 5. 拆分过程依赖元数据,可能会通过MDSClient向 MDS获取 6. 拆分成的子请求放入队列CLIENT IO线程模型 IO分发线程 7 nlock,在大量并发的情况下,会阻塞worker线程,也 存在瓶颈  std::mutex/spinlock 改成 bthread::Mutex  …… 128深度、4K随机写欢 迎 大 家 参 与 C U R V E 项 目 !  github主页: https://opencurve.github.io/  github代码仓库: https://github.com/opencurve/curve0 码力 | 27 页 | 1.57 MB | 6 月前3 Curve核心组件之Client - 网易数帆将请求发往leader节点CLIENT IO线程模型 用户线程 1. 用户调用接口,发起IO请求 2. AioWrite将请求封装成io task并放入任务队列 3. 放入任务队列后,异步请求发起成功,返回用户 IO拆分线程 4. 从任务队列取出任务后进行拆分 5. 拆分过程依赖元数据,可能会通过MDSClient向 MDS获取 6. 拆分成的子请求放入队列CLIENT IO线程模型 IO分发线程 7 nlock,在大量并发的情况下,会阻塞worker线程,也 存在瓶颈  std::mutex/spinlock 改成 bthread::Mutex  …… 128深度、4K随机写欢 迎 大 家 参 与 C U R V E 项 目 !  github主页: https://opencurve.github.io/  github代码仓库: https://github.com/opencurve/curve0 码力 | 27 页 | 1.57 MB | 6 月前3
 Curve质量监控与运维 - 网易数帆要设计 文档:  小需求(改动小)将实现思路记录到任务管理系统中(JIRA),即可进行开发;  大需求(新模块、复杂功能)需要输出独立设计文档,并进行评审;对于功能或 性能影响较大的功能,还需要进行POC验证;评审和验证通过后才能启动开发 工作。 小需求 实现思路 开发 大需求 设计文档 POC 开发 7/33设计文档规范 设计文档需要具备以下内容:  修订记录  审批记录 通过这种流程,curve可以在一定 程度上保证master分支的稳定性。 master 10/33版本管理 Curve版本命名规则是x.y.z{-后缀}  x为主版本号,每次发布大版本时递增; 大版本一般半年发布一次。  y为次版本号,每次发布小版本时递增; 小版本一般1~2个月发布一次。  z为修订号,修复一批bug后递增。  后缀表示版本状态,beta表示测试版本,rc 常规测试,主要是新增功能的手工测试;  性能测试,将性能数据与基准对照,确定性能没有出现预期外的下降或提升;  稳定性测试,在正常压力下运行足够长的时间;  异常测试,在正常流程中注入一种软硬件异常;  混沌测试,大压力多级故障(随机组合软硬件异常)。 在系统测试过程中,我们尽可能将所有用例自动化,其优点是:  大幅降低了测试回归成本,加快了测试进度;  可以对代码进行足够频繁的测试,有利于提高代码质量;0 码力 | 33 页 | 2.64 MB | 6 月前3 Curve质量监控与运维 - 网易数帆要设计 文档:  小需求(改动小)将实现思路记录到任务管理系统中(JIRA),即可进行开发;  大需求(新模块、复杂功能)需要输出独立设计文档,并进行评审;对于功能或 性能影响较大的功能,还需要进行POC验证;评审和验证通过后才能启动开发 工作。 小需求 实现思路 开发 大需求 设计文档 POC 开发 7/33设计文档规范 设计文档需要具备以下内容:  修订记录  审批记录 通过这种流程,curve可以在一定 程度上保证master分支的稳定性。 master 10/33版本管理 Curve版本命名规则是x.y.z{-后缀}  x为主版本号,每次发布大版本时递增; 大版本一般半年发布一次。  y为次版本号,每次发布小版本时递增; 小版本一般1~2个月发布一次。  z为修订号,修复一批bug后递增。  后缀表示版本状态,beta表示测试版本,rc 常规测试,主要是新增功能的手工测试;  性能测试,将性能数据与基准对照,确定性能没有出现预期外的下降或提升;  稳定性测试,在正常压力下运行足够长的时间;  异常测试,在正常流程中注入一种软硬件异常;  混沌测试,大压力多级故障(随机组合软硬件异常)。 在系统测试过程中,我们尽可能将所有用例自动化,其优点是:  大幅降低了测试回归成本,加快了测试进度;  可以对代码进行足够频繁的测试,有利于提高代码质量;0 码力 | 33 页 | 2.64 MB | 6 月前3
 Curve设计要点完备的测试用例集 • 自动化异常测试 41个异常用例 • 自动化大压力随机故障注入 20轮随机故障注入背景 01 02 03 04 总体设计 系统特性 近期规划• 性能优化 • 满足数据库性能要求 • 大io吞吐优化 • muti raft 性能优化 • 开源 • 系列技术分享 • 参与开发人员线上议题讨论会 近期规划欢 迎 大 家 参 与 C U R V E 项 目 ! • github主页:0 码力 | 35 页 | 2.03 MB | 6 月前3 Curve设计要点完备的测试用例集 • 自动化异常测试 41个异常用例 • 自动化大压力随机故障注入 20轮随机故障注入背景 01 02 03 04 总体设计 系统特性 近期规划• 性能优化 • 满足数据库性能要求 • 大io吞吐优化 • muti raft 性能优化 • 开源 • 系列技术分享 • 参与开发人员线上议题讨论会 近期规划欢 迎 大 家 参 与 C U R V E 项 目 ! • github主页:0 码力 | 35 页 | 2.03 MB | 6 月前3
 PolarDB开源生态介绍 - 杭州Meetup 2022.10.15PolarDB开源生态介绍 阿里云 digoal为什么开源是未来?阿里巴巴开源缩略图数据库开源大图PolarDB开源云原生分布式数据库家族 : 兼容MySQL&PostgreSQL用户 生态伙伴 人才 降本提效 团队成长 商业服务 用户合作 • 联合实验室 PolarDB云原生分布式开源数据库产品 高校合作 • 课程合作 • 科研项目合作 • 工作组 高校 协同育人、教学优化成果 开源认证考试 • 开源学堂 • 内核课程 PolarDB开源社区 (2W+用户) github、官网、钉钉、微信、B站、知乎、csdn、... • 峰会 • 大咖说.对话开源 • meetup • 荣誉墙 技能栏目: 3万/场 曝光流量 影响力栏目: up 500万/场 曝光流量 竞技栏目: 100万/场 曝光流量 • SIG • Issue0 码力 | 7 页 | 1.45 MB | 6 月前3 PolarDB开源生态介绍 - 杭州Meetup 2022.10.15PolarDB开源生态介绍 阿里云 digoal为什么开源是未来?阿里巴巴开源缩略图数据库开源大图PolarDB开源云原生分布式数据库家族 : 兼容MySQL&PostgreSQL用户 生态伙伴 人才 降本提效 团队成长 商业服务 用户合作 • 联合实验室 PolarDB云原生分布式开源数据库产品 高校合作 • 课程合作 • 科研项目合作 • 工作组 高校 协同育人、教学优化成果 开源认证考试 • 开源学堂 • 内核课程 PolarDB开源社区 (2W+用户) github、官网、钉钉、微信、B站、知乎、csdn、... • 峰会 • 大咖说.对话开源 • meetup • 荣誉墙 技能栏目: 3万/场 曝光流量 影响力栏目: up 500万/场 曝光流量 竞技栏目: 100万/场 曝光流量 • SIG • Issue0 码力 | 7 页 | 1.45 MB | 6 月前3
 Curve 分布式存储设计抖动Curve文件存储 1. 元数据服务 2. 高性能 3. 可扩展易运维 4. 云原生 设计目标Curve文件存储 1. 兼顾性能与容量的机器学习 场景 2. 快速跨云弹性发布的业务 3. 低成本大容量需求的业务 4. 中间件冷热数据自动分离 5. S3和POSIX统一访问需求 主要挑战和支持场景Curve Roadmap 1. 架构 1. 文件存储支持分布式缓存、完善冷热数据分层存储能力 社区成员组成: 网易杭研、网易云音乐、腾讯、zstack、西安邮电大学生等等 3. 项目 https://github.com/opencurve/curve 4. 版本发布周期:每半年一个大版本,1~2个月一个小版本 5. 了解Curve进展:每隔2周的Curve周会说明Curve进展以及讨论 相关问题 6. 提交bug与建议:https://github.com/openCURVE/CURVE/issues0 码力 | 20 页 | 4.13 MB | 6 月前3 Curve 分布式存储设计抖动Curve文件存储 1. 元数据服务 2. 高性能 3. 可扩展易运维 4. 云原生 设计目标Curve文件存储 1. 兼顾性能与容量的机器学习 场景 2. 快速跨云弹性发布的业务 3. 低成本大容量需求的业务 4. 中间件冷热数据自动分离 5. S3和POSIX统一访问需求 主要挑战和支持场景Curve Roadmap 1. 架构 1. 文件存储支持分布式缓存、完善冷热数据分层存储能力 社区成员组成: 网易杭研、网易云音乐、腾讯、zstack、西安邮电大学生等等 3. 项目 https://github.com/opencurve/curve 4. 版本发布周期:每半年一个大版本,1~2个月一个小版本 5. 了解Curve进展:每隔2周的Curve周会说明Curve进展以及讨论 相关问题 6. 提交bug与建议:https://github.com/openCURVE/CURVE/issues0 码力 | 20 页 | 4.13 MB | 6 月前3
 新一代云原生分布式存储通常意义是支持 POSIX 接口 传统意义的文件系统: Ext4 对指定地址空间进行随机读写 传统意义的块存储:磁盘分布式存储的要素 如何构建分布式文件系统? 以分布式块存储为例。 •提供大容量的块设备 •可以在指定地址空间内随机读写 write(offset, len) •服务质量要求:数据不能丢、服务随时可用、弹性扩缩容 要什么 •成百上千台存储节点 •磁盘故障、机器故障、网络故障概率性发生 2 58 (4MB, 8MB) 759463473 9 3 (8MB, 16MB) 342165799 5 51 • 映射信息无需记录,直接通过计算获得 • 伪随机算法在服务器数量特别大的时候接近均衡 • 节点故障(DiskNums)变更会涉及其他数据的迁移 有中心节点:持久化对应关系 • 需要将数据分布(元数据)持久化 • 中心节点感知集群的信息,进行资源实时调度 • 节点故障不会涉及其他的数据迁移0 码力 | 29 页 | 2.46 MB | 6 月前3 新一代云原生分布式存储通常意义是支持 POSIX 接口 传统意义的文件系统: Ext4 对指定地址空间进行随机读写 传统意义的块存储:磁盘分布式存储的要素 如何构建分布式文件系统? 以分布式块存储为例。 •提供大容量的块设备 •可以在指定地址空间内随机读写 write(offset, len) •服务质量要求:数据不能丢、服务随时可用、弹性扩缩容 要什么 •成百上千台存储节点 •磁盘故障、机器故障、网络故障概率性发生 2 58 (4MB, 8MB) 759463473 9 3 (8MB, 16MB) 342165799 5 51 • 映射信息无需记录,直接通过计算获得 • 伪随机算法在服务器数量特别大的时候接近均衡 • 节点故障(DiskNums)变更会涉及其他数据的迁移 有中心节点:持久化对应关系 • 需要将数据分布(元数据)持久化 • 中心节点感知集群的信息,进行资源实时调度 • 节点故障不会涉及其他的数据迁移0 码力 | 29 页 | 2.46 MB | 6 月前3
 Curve核心组件之mds – 网易数帆256K个复制组,复制组的内存资源占用将会非常恐怖;复制组之 间的通信将会非常复杂,例如复制组内Primary给Secondary定期发送心跳进行探活,在256K个复制组的情况 下,心跳的流量将会非常大;而引入CopySet的概念之后,可以以CopySet的粒度进行探活、配置变更,降低 开销。 3. 提高数据可靠性:在数据复制组过度打散的情况下,在发生多个节点同时故障的情况下,数据的可靠性会受 使得集群的leader尽快达到均衡状态。 rSCHEDULE • 集群负载和资源均衡 • leader copyset scatter-width • 无需人工干预 • 对io影响几乎无影响欢 迎 大 家 参 与 C U R V E 项 目 ! • github主页: https://opencurve.github.io/ • github代码仓库: https://github.com/opencurve/curve0 码力 | 23 页 | 1.74 MB | 6 月前3 Curve核心组件之mds – 网易数帆256K个复制组,复制组的内存资源占用将会非常恐怖;复制组之 间的通信将会非常复杂,例如复制组内Primary给Secondary定期发送心跳进行探活,在256K个复制组的情况 下,心跳的流量将会非常大;而引入CopySet的概念之后,可以以CopySet的粒度进行探活、配置变更,降低 开销。 3. 提高数据可靠性:在数据复制组过度打散的情况下,在发生多个节点同时故障的情况下,数据的可靠性会受 使得集群的leader尽快达到均衡状态。 rSCHEDULE • 集群负载和资源均衡 • leader copyset scatter-width • 无需人工干预 • 对io影响几乎无影响欢 迎 大 家 参 与 C U R V E 项 目 ! • github主页: https://opencurve.github.io/ • github代码仓库: https://github.com/opencurve/curve0 码力 | 23 页 | 1.74 MB | 6 月前3
 CurveFS对接S3方案设计read流程 1.read流程的难点在于,inode中存在的S3ChunkInfo情况的多样性,因此在read前,需要先对s3info信息进行优化,将overlap的chunk进行拆分,version大的覆盖version小的。最后得到的是一组没有overlap的c hunks。 2.在将这些chunks按照offset进行大小进行排序,方便处理后面的read操作。 3.将read的offset0 码力 | 11 页 | 145.77 KB | 6 月前3 CurveFS对接S3方案设计read流程 1.read流程的难点在于,inode中存在的S3ChunkInfo情况的多样性,因此在read前,需要先对s3info信息进行优化,将overlap的chunk进行拆分,version大的覆盖version小的。最后得到的是一组没有overlap的c hunks。 2.在将这些chunks按照offset进行大小进行排序,方便处理后面的read操作。 3.将read的offset0 码力 | 11 页 | 145.77 KB | 6 月前3
 Curve核心组件之snapshotclone类似与发起一个写请求,经CopysetNode走一致性协议 完成 • 完成写入后,并标记bitmap,如果全部写过,则取消 clone chunk标记。 异步完成源chunk读到的数据写入到本地 chunk :欢 迎 大 家 参 与 C U R V E 项 目 ! • github主页: https://opencurve.github.io/ • github代码仓库: https://github.com/opencurve/curve0 码力 | 23 页 | 1.32 MB | 6 月前3 Curve核心组件之snapshotclone类似与发起一个写请求,经CopysetNode走一致性协议 完成 • 完成写入后,并标记bitmap,如果全部写过,则取消 clone chunk标记。 异步完成源chunk读到的数据写入到本地 chunk :欢 迎 大 家 参 与 C U R V E 项 目 ! • github主页: https://opencurve.github.io/ • github代码仓库: https://github.com/opencurve/curve0 码力 | 23 页 | 1.32 MB | 6 月前3
 Curve核心组件之chunkserver追加写改为覆盖写(避免每次写的时候改变元数据,减少IO放大) 2. 写入时4KB对齐(4KB不对齐的情况下,每次写入都会有读请求,从而影响效率) 3. 改为O_DIRECT模式(改为Direct模式可以避免显式调用sync)欢 迎 大 家 参 与 C U R V E 项 目 ! • github主页: https://opencurve.github.io/ • github代码仓库: https://github.com/opencurve/curve0 码力 | 29 页 | 1.61 MB | 6 月前3 Curve核心组件之chunkserver追加写改为覆盖写(避免每次写的时候改变元数据,减少IO放大) 2. 写入时4KB对齐(4KB不对齐的情况下,每次写入都会有读请求,从而影响效率) 3. 改为O_DIRECT模式(改为Direct模式可以避免显式调用sync)欢 迎 大 家 参 与 C U R V E 项 目 ! • github主页: https://opencurve.github.io/ • github代码仓库: https://github.com/opencurve/curve0 码力 | 29 页 | 1.61 MB | 6 月前3
共 13 条
- 1
- 2













