Curve质量监控与运维 - 网易数帆C u r v e 质 量 、 监 控 与 运 维 秦 亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等 多种场景自研的分布式存储系统: 高性能、低延迟 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行近两年 已完整开源 作为一个复杂的大型分布式存储系统,Curve 需要利用科学的方法论和专业的工具,在整个 软件生命周期内更好地为用户服务: 质量——向用户交付稳定可靠的软件; 监控——直观地展示Curve运行状态; 运维——保障Curve始终稳定高效运行。 质量 ✓ 质量管理体系(设计、开发、review、CI) ✓ 测试方法论(单元测试、集成测试、系统测试) 监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示 (易部署、易升级、自治) ✓ 运维工具(部署工具、管理工具) 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量 软件质量的定义是:软件与明确地和隐含地定义的需求相一致的程度。 为了确保最终交付的软件满足需求,必须将质量控制贯穿于设计、开发到测试的整个流程中。 设计 设计流程 文档规范 开发 编码规范与提交流程0 码力 | 33 页 | 2.64 MB | 6 月前3
Zadig 面向开发者的云原生 DevOps 平台重视开发者体验,工程师不再做脏活累活 传统 DevOps 体系 Zadig 云原生 DevOps 平台 高人效 低人效 低人效 / 低质量 / 低效率 / 高成 本: 人淹没在系统的海洋里,无数平台手工切换 高人效 / 高质量 / 高效率 / 低成 本: 人在系统之外 / 上,复杂性下沉到单一平台 希望 工程师不再花时间在开发写代码之外的脏活累活,比如服务部署、找环境,服务编排等 方案 ZadigX 云原生 DevOps 方案 降本提效 组织能力提升 业务负责人 研发不透明,规划凭感觉: • 发版时间靠运气 • 团队熬夜冲进度 研发透明化:不同项目清晰可见的效率、质量、进度 进度管理:根据团队客观数据,预测和确定项目规划 迭代进度一目了然 项目从无到有可核算 管理有数据科学依据 解放管理,更多时间花在 业务创新 平台运维 业务压力大,能力建设缓慢: • 大量工作花在工具链维护 解放开发,专注编码 更多的架构和技术提升 测试 效率和质量难以平衡: • 自动化测试难以开展 • 环境不稳定并行验证效率低 • 测试多苦劳,价值难以体现 测试效果提升:独立稳定环境用于测试验收、自动化建设 价值被团队感知:自动化测试从开发到发布被全团队感知 部署频率升高 1-5 倍 验证有效性提升 100% 解放测试,全面自动化 提升效率,建设质量体系 安全 安全建设被动: • 安全建设缺乏时机和抓手0 码力 | 59 页 | 81.43 MB | 1 年前3
Zadig 面向开发者的云原生 DevOps 平台统一产研运管理平面 重视开发者体验,工程师不再做脏活累活 传统 DevOps 体系 Zadig 云原生 DevOps 平台 高人效 低人效 低人效/低质量/低效率/高成本: 人淹没在系统的海洋里,无数平台手工切换 高人效/高质量/高效率/低成本: 人在系统之外/上,复杂性下沉到单一平台 希望 工程师不再花时间在开发写代码之外的脏活累活,比如服务部署、找环境,服务编排等Infra的事情。 DevOps 方案 ZadigX 云原生 DevOps方案 降本提效 组织能力提升 业务负责人 研发不透明,规划凭感觉: • 发版时间靠运气 • 团队熬夜冲进度 研发透明化:不同项目清晰可见的效率、质量、进度 进度管理:根据团队客观数据,预测和确定项目规划 迭代进度一目了然 项目从无到有可核算 管理有数据科学依据 解放管理,更多时间花在 业务创新 平台运维 业务压力大,能力建设缓慢: • 大量工作花在工具链维护 解放开发,专注编码 更多的架构和技术提升 测试 效率和质量难以平衡: • 自动化测试难以开展 • 环境不稳定并行验证效率低 • 测试多苦劳,价值难以体现 测试效果提升:独立稳定环境用于测试验收、自动化建设 价值被团队感知:自动化测试从开发到发布被全团队感知 部署频率升高 1-5 倍 验证有效性提升 100% 解放测试,全面自动化 提升效率,建设质量体系 安全 安全建设被动: • 安全建设缺乏时机和抓手0 码力 | 59 页 | 23.57 MB | 1 年前3
Zadig 产品使用手册+ 复杂工具链 工程化:一个平台 一键发布 工作流、环境配置自动更新、高 效调试、消除手工操作、精准快 速迭代、研发生产力 / 幸福感提 升 自助运行、系统化管理、自动化 程度高、测试有效性提升、质量 有保障、横向赋能、技能提升 随时调用工程基线提供的能力、 产品视角开发交付、团队高效协 同、稳定迭代 产研数字化过程数据透明、关键 指标易抽取、有能力合理调动资 源、随时决策响应客户需求 碎片化 Jenkins KubeSphere 1 、 敏捷协作方案介绍 持续集成 (CI) -> 持续交付 (CD) -> 持续部署 (CD) -> 持续运营 (CO) 质量右移 质量左移 软件研发核心工程实践:基于质量工程的持续交付体系( CI/CD 、 CO 、 CT 、 CS ) 工 程 实 践 : • 持 续 集 成 ( C I 针 对 代 码 ) • 持 续 交 付 ( C 持续测试 (Continuous Testing) 持续安全 (Continuous Security) 软件研发核心工程实践:交付工程 CI/CD 开发者实践 软件研发核心工程实践:全流程质量工程实践 - 持续测试 CT/ 持续安全 CS 协 同 特 点 : • 流 程 可 定 义 • 工 具 可 扩 展 • 能 力 可 编 排 • 价 值 可 感 知 面 向 角 色 :0 码力 | 52 页 | 22.95 MB | 1 年前3
Zadig 产品使用手册碎片化:手工协作 + 复杂工具链 工程化:一个平台 一键发布 工作流、环境配置自动更新、高 效调试、消除手工操作、精准快 速迭代、研发生产力/幸福感提升 自助运行、系统化管理、自动化 程度高、测试有效性提升、质量 有保障、横向赋能、技能提升 随时调用工程基线提供的能力、 产品视角开发交付、团队高效协 同、稳定迭代 产研数字化过程数据透明、关键 指标易抽取、有能力合理调动资 源、随时决策响应客户需求 碎 Tekton Jenkins KubeSphere 1、 敏捷协作方案介绍 持续集成(CI) -> 持续交付(CD) -> 持续部署(CD) ->持续运营(CO) 质量右移 质量左移 软件研发核心工程实践:基于质量工程的持续交付体系(CI/CD、CO、CT、CS) 工 程 实 践 : • 持 续 集 成 ( C I 针 对 代 码 ) • 持 续 交 付 ( C D 针 对 需 队 持续测试 (Continuous Testing) 持续安全 (Continuous Security) 软件研发核心工程实践:交付工程 CI/CD 开发者实践 软件研发核心工程实践:全流程质量工程实践-持续测试CT/持续安全CS 协 同 特 点 : • 流 程 可 定 义 • 工 具 可 扩 展 • 能 力 可 编 排 • 价 值 可 感 知 面 向 角 色 : • P O0 码力 | 52 页 | 16.27 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层 应⽤用层 • cache资源 • db资源 • mq资源 • lb资源 • es资源 饱和度 • 吞吐量量 • 依赖响应 • 缓存命中率 • 调⽤用链 • SLA • ⽇日志 播放质量量 • 点播/直播 • 播放卡顿 • 平均⾸首帧 • 播放失败率 • 弹幕加载 • cdn质量量 客户端质量量 • ⽤用户端⽹网络质量量 • 劫持情况 • 崩溃&卡顿 • 返回码 • 响应时间 • 错误率 服务端监控 ⽤用户端监控0 码力 | 34 页 | 650.25 KB | 1 年前3
新一代云原生分布式存储对指定地址空间进行随机读写 传统意义的块存储:磁盘分布式存储的要素 如何构建分布式文件系统? 以分布式块存储为例。 •提供大容量的块设备 •可以在指定地址空间内随机读写 write(offset, len) •服务质量要求:数据不能丢、服务随时可用、弹性扩缩容 要什么 •成百上千台存储节点 •磁盘故障、机器故障、网络故障概率性发生 有什么 分布式存储系统需要满足接口需求,并且有持续监控、错误检测、容错与自动恢复的能力 具备可视化的开发页面, 直观查看任务运行情况, 数据开发方便,系统运 维方便 易运维 具备可视化的开发页面, 直观查看任务运行情况, 数据开发方便,系统运 维方便 高质量 基于在架构上的选择和优秀的工程实践,Curve 在性能、运维、稳定性、工程实践质量上都优于Ceph主要亮点 — 高性能 测试环境:3台服务器*8块NVME, Intel(R) Xeon(R) Gold 5318Y CPU @ 2.10GHz io持续抖动,util持续100% 网络丢包 随着loss增大,还有部分io 随着loss增大,无法进行io 机器宕机 io略微波动 io卡住10s以上 机器卡住 io抖动4s 不可恢复主要亮点 — 高质量 良好的模块化和抽象设计;完善的测试体系 单元测试覆盖率 lines functions link Curve 85.4% 89% curve Ceph 37.1% 43.3% ceph应用情况0 码力 | 29 页 | 2.46 MB | 6 月前3
openEuler 21.09 技术白皮书Kernel 的持续贡献 openEuler 内核研发团队持续贡献 Linux Kernel 上游社区,回馈主要集中在:芯片架构、ACPI、内存管理、文件系统、 Media、内核文档、针对整个内核质量加固的 bug fix 及代码重构等内容。十余年来总计向社区贡献 17000+ 补丁。 在 Linux Kernel 5.10 和 5.14 版本中,openEuler 内核研发团队代码贡献量排名全球第一。坚持内核创新,持续贡献 (~15%),在线和离线业务混合部署 是提升资源利用率的有效方式。在现有的内核资源分配和管理机制,混部后的在线业务的性能抖动大,服务质量无法的到有效 保障。openEuler 面向云原生业务混部场景,创新 CPU 调度算法和内存回收算法,支撑提升系统的 CPU 利用率和保证在线 业务的服务质量。 QAS(Quality aware scheduler)是一种适用于云原生场景,业务混合部署的全新调度算法,可以确保在线任务对 3. 决策社区 SIG 的成立、撤销、合并等事务。解决 SIG 组之间的协作冲突,辅导、审视和监督 SIG 组的日常运作。 4. 落实社区日常开发工作,保证 openEuler 操作系统版本高质量发布。 5. 导社区在体系架构、内核、虚拟化、云原生、安全等领域技术创新,保证社区具有持续的技术竞争力。 6. 导社区建立原创性开源项目,持续构建社区技术影响力。 openEuler 210 码力 | 35 页 | 3.72 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 冲上云霄—腾讯海量业务上云实践业务验证 效果评估 问题优化 正式上云 运营维护 上云各环节注意点 业务上云 测试 方案 迁移 混合 质量 功能、性能测试,云上云下对比 安全、容量、难度、风险、数据 接入服务、逻辑服务、数据存储、文件存储 混合云过度到全量公有云 服务调用质量、用户访问质量、 服务可用率 数据上公有云 • 冷迁移+增量 •同步中心数据同步 •切换过程停写 私有组件迁移上云 •0 码力 | 26 页 | 2.39 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏蓝鲸平台 嘉为蓝鲸DevOps平台 顾 问 咨 询 服 务 集 成 实 施 服 务 协同场景 需求管理 任务管理 版本管理 迭代管理 自动化 缺陷管理 WiKi管理 流水线 质量红线 度量场景 总体度量 项目度量 平台管理 权限中心 凭证管理 项目管理 后台管理 运营场景 运营分析 …… 开发场景 测试场景 运维场景 代码仓库 单元测试 代码检查 数据清洗工具 数据开发 全链路数据开发IDE FaaS | DataFlow 数据分析 统一查询工具 数据探索工具(BI) 数据挖掘 可视化建模工具 样本标记工具 数据管理 元数据管理工具 数据质量&安全监控 积累全域数据 运营场景应用 运营数据集 其他场景应用 其他数据集 功能示例描述 01 蓝鲸技术运营PaaS体系 02 企业落地解决方案 03 企业典型场景分享 CONTENTS 虚拟化平台 …… 外部数据源 蓝鲸CMDB 业务管理 主机资源管理 操作审计 事件推送 模型管理 实例管理 权限管理 拓扑管理 自动采集(采集适配器) 配置管理门户 数据分析 数据展示 数据质量 外部对接 功能示例 2、监控整体逻辑架构 监控采集 Agent插件采集 TCP/UDP HTTP(S) 协议采集 Agent Exporter 采集器 SNMP 脚本 第三方接入0 码力 | 26 页 | 8.25 MB | 1 年前3
共 45 条
- 1
- 2
- 3
- 4
- 5













