Curve质量监控与运维 - 网易数帆C u r v e 质 量 、 监 控 与 运 维 秦 亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等 多种场景自研的分布式存储系统: 高性能、低延迟 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行近两年 已完整开源 需要利用科学的方法论和专业的工具,在整个 软件生命周期内更好地为用户服务: 质量——向用户交付稳定可靠的软件; 监控——直观地展示Curve运行状态; 运维——保障Curve始终稳定高效运行。 质量 ✓ 质量管理体系(设计、开发、review、CI) ✓ 测试方法论(单元测试、集成测试、系统测试) 监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示 运维 ✓ 运维特性 (易部署、易升级、自治) (易部署、易升级、自治) ✓ 运维工具(部署工具、管理工具) 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量 软件质量的定义是:软件与明确地和隐含地定义的需求相一致的程度。 为了确保最终交付的软件满足需求,必须将质量控制贯穿于设计、开发到测试的整个流程中。 设计 设计流程 文档规范 开发 编码规范与提交流程 版本管理0 码力 | 33 页 | 2.64 MB | 6 月前3
人工智能安全治理框架 1.01.4 开放合作、共治共享。在全球范围推动人工智能安全治理国际合作, 共享最佳实践,提倡建立开放性平台,通过跨学科、跨领域、跨地区、跨国界 的对话和合作,推动形成具有广泛共识的全球人工智能治理体系。 2. 人工智能安全治理框架构成 基于风险管理理念,本框架针对不同类型的人工智能安全风险,从技术、 管理两方面提出防范应对措施。同时,目前人工智能研发应用仍在快速发展, 安全风险的表现形式 政府部门、行业协会、社会组织等多方参与的人工智能安全风险综合治理制度 规范。 5.1 实施人工智能应用分类分级管理。根据功能、性能、应用场景等, 对人工智能系统分类分级,建立风险等级测试评估体系。加强人工智能最终用 途管理,对特定人群及场景下使用人工智能技术提出相关要求,防止人工智能 系统被滥用。对算力、推理能力达到一定阈值或应用在特定行业领域的人工智 能系统进行登记备案,要求其具备在设计、研发、测试、部署、使用、维护等 5.3 完善人工智能数据安全和个人信息保护规范。针对人工智能技术 及应用特点,明确人工智能训练、标注、使用、输出等各环节的数据安全和个 人信息保护要求。 5.4 构建负责任的人工智能研发应用体系。研究提出“以人为本、智能 向善”在人工智能研发应用中的具体操作指南和最佳实践,持续推进人工智能 设计、研发、应用的价值观、伦理观对齐。探索适应人工智能时代的版权保护 和开发利用制度,持续推进0 码力 | 20 页 | 3.79 MB | 1 月前3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-2025026· 销售 物 理 工 序 模 型 导 图 原料 废钢 烧结 球团 焦化 炼铁 炼钢 精炼 连铸 热轧 冷轧 销售 • 料场环境实时监控 • 人员越界安全监测 • 回转窑窑况智能分 析 • 原料无人天车吊装 控制 • 生产现场运输状态 监控 • 现场路线智能调度 • 智能化能源调度 • 料场智能调度 • 燃料水分视觉分析 • 多角度废钢图像 采集 • 废钢智能定级 • 生产现场动作远程控制 • 焦化现场生产安全态势 感知与预警 • 部署打滑预测分析 • 能源计划 • 炼焦煤分级调湿工艺稳 定协调控制 • 危险物识别 • 人员安全监测 • 高炉料面温度检测 • 高炉料面可视化监控 • 炉顶布料效果评定 • 远程换钎 • 中间产品无人天车吊装 控制 • 废品无人天车吊装控制 • 铁水质量预报 • 高炉温度分布 • 高炉燃料比监测 • 高炉精准出铁预测 • 高炉炉况诊断 • ·计算最佳工艺参数 • 炼钢工序物料属性检测 • ·精炼钢水温度连续测量 • 炼钢设备远程监控及故障 诊断 • ·转炉炉体缺陷检测 • 钢水液面检测 • 钢包水口位置定位 • 钢包顶升高度预测 • 钢包吊钩姿态监测 • 钢包温度远程智能监测 • 炼钢工序物料属性检测 • ·精炼钢水温度连续测量 • 炼钢设备远程监控及故障诊断 • 转炉炉体缺陷检测 • 钢水液面检测 • 钢包水口位置定位0 码力 | 76 页 | 5.02 MB | 5 月前3
新一代云原生分布式存储write(offset, len) •服务质量要求:数据不能丢、服务随时可用、弹性扩缩容 要什么 •成百上千台存储节点 •磁盘故障、机器故障、网络故障概率性发生 有什么 分布式存储系统需要满足接口需求,并且有持续监控、错误检测、容错与自动恢复的能力 以达到高可靠、高可用、高可扩分布式存储的要素 要 素 拆 解 数据分布 —— 无中心节点/中心节点 均 衡 地址空间的每段数据会分布在不同机器的磁盘上,如 Curve Ceph 加盘 对IO无影响 秒级io影响 服务端升级 对IO无影响 重启管控面IO无影响,重启osd io秒级影响 客户端升级 热升级,秒级抖动 不支持热升级,需要业务停服 集群监控 丰富的metric metric类型较少主要亮点 — 更稳定 异常场景 Curve Ceph 坏盘 基本无抖动 无明显抖动 慢盘 io持续抖动,但util未100% io持续抖动,util持续100% 随着loss增大,还有部分io 随着loss增大,无法进行io 机器宕机 io略微波动 io卡住10s以上 机器卡住 io抖动4s 不可恢复主要亮点 — 高质量 良好的模块化和抽象设计;完善的测试体系 单元测试覆盖率 lines functions link Curve 85.4% 89% curve Ceph 37.1% 43.3% ceph应用情况 Curve 在网易集团内有大规模的生产应用0 码力 | 29 页 | 2.46 MB | 6 月前3
Curve设计要点Server: 接受请求 调用Curve Client处理 • 升级只需重启Server 秒级影响易运维 • 丰富的metric体系 • prometheus + grafana 可视化 • 每日报表 • 丰富的数据定位问题易运维 • 丰富的metric体系 • prometheus + grafana 可视化 • 每日报表 • 丰富的数据定位问题 • 集群状态查询工具 • curve_ops_tool curve_ops_tool • 自动化部署工具 • 一键部署,一键升级高质量 • 良好的模块化和抽象设计 • 完善的测试体系 • 单元测试 行覆盖80%+,分支覆盖70%+ • 集成测试 Given When Then 方法 完备的测试用例集 • 自动化异常测试 41个异常用例 • 自动化大压力随机故障注入 20轮随机故障注入背景 01 02 03 04 总体设计 系统特性0 码力 | 35 页 | 2.03 MB | 6 月前3
Curve元数据节点高可用5.1 事件一先发生 4.2.5.2 事件二先发生 4.2.6 异常情况4:Etcd集群的follower节点异常 4.2.7 各情况汇总 1. 需求 mds是元数据节点,负责空间分配,集群状态监控,集群节点间的资源均衡等,mds故障可能会导致client端无法写入。 因此,mds需要做高可用。满足多个mds, 但同时只有一个mds节点提供服务,称该提供服务的mds节点为主,等待节点为备;主 ②定期去etcd server中get leader/MDS1,看是否还存在。这里涉及到定期get的时间 PeriodicGetTime, 以及get超时的时间 GetTimeout ③使用Observe监控指定前缀的key的最小版本的变化情况。© XXX Page 19 of 30 1. 2. 1. 该部分涉及到的参数说明: 参数 说明 当前配置 ElectionTimeout mds2当选leader之后,同样与etcd server有三类交互: ①与etcd server维持租约。 ②定期去etcd server中get leader/MDS2,看是否还存在。 ③使用Observe监控指定前缀的key的最小版本的变化情况。© XXX Page 21 of 30 1. 2. 3. 1. 2. 1. 4.2.3 异常情况2:Etcd集群的lea0 码力 | 30 页 | 2.42 MB | 6 月前3
副本如何用CLup管理PolarDB PostgreSQL/PolarDB集群统一管理、统一运 维。 PostgreSQL/PolarDB集群可以用功能(即故 障自动切换) 实现对PostgreSQL/PolarDB的监控管理 对PostgreSQL/PolarDB的TopSQL的管理 架构说明 有一台机器上部署的CLup管理节点,这个管 理节点提供WEB管理界面统一管理所有的 PostgreSQL/PolarDB数据库。 数据同步复制 写请求 读请求 应用层 负载均衡器 CLup高可用及读写分离功能http://www.csudata.com │中启乘数科技(杭州)有限公司 数据赋能│价值创新 Clup管理界面-性能监控http://www.csudata.com │中启乘数科技(杭州)有限公司 数据赋能│价值创新 CLUP TOP SQL功能http://www.csudata.com │中启乘数科技(杭州)有限公司0 码力 | 34 页 | 3.59 MB | 6 月前3
NJSD eBPF 技术文档 - 0924版本GETATTR流程 • ⽂件读取流程 • 相关⼯作 • extFUSE • google android12 passthrough什么是eBPF • ebpf是不同环境下内核配置, 调试,监控⼯具 • map映射 • 验证器 • Hook • Helper api配置TCP Initial RTO • 场景 内核4.12之前 initial RTO是⼀个常数1s •0 码力 | 20 页 | 7.40 MB | 6 月前3
PFS SPDK: Storage Performance Development Kit总体架构10/17/22 17 TCP也可以部分零copy ●读写盘的部分是零copy的 ●网络部分依赖内核tcp,不是零copy10/17/22 18 进展 ●还在测试CurveBS ●布置、监控等工具需要更新10/17/22 19 性能测试 ●使用pfs daemon测试 ●估计非daemon模式的会更快一点,因为没有跨进程开销10/17/22 20 Write,DMA write0 码力 | 23 页 | 4.21 MB | 6 月前3
Curve核心组件之chunkserver隆相关的内容将会在快照克隆相关介 绍文档中详细介绍。 ChunkServer架构Metric统计模块使用brpc中的bvar计数 器,统计一些IO层面和copyset层面的 一些指标,方便监控和跟踪。 ChunkServer架构并发控制层,负责对chunkserver的IO 请求进行并发控制,对上层的读写请 求安照chunk粒度进行Hash,使得不同 chunk的请求可以并发执行。0 码力 | 29 页 | 1.61 MB | 6 月前3
共 10 条
- 1













