Curve质量监控与运维 - 网易数帆C u r v e 质 量 、 监 控 与 运 维 秦 亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等 多种场景自研的分布式存储系统: 高性能、低延迟 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行近两年 已完整开源 质量——向用户交付稳定可靠的软件; 监控——直观地展示Curve运行状态; 运维——保障Curve始终稳定高效运行。 质量 ✓ 质量管理体系(设计、开发、review、CI) ✓ 测试方法论(单元测试、集成测试、系统测试) 监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示 运维 ✓ 运维特性 (易部署、易升级、自治) ✓ 运维工具(部署工具、管理工具) 4/33背景 01 02 03 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量 软件质量的定义是:软件与明确地和隐含地定义的需求相一致的程度。 为了确保最终交付的软件满足需求,必须将质量控制贯穿于设计、开发到测试的整个流程中。 设计 设计流程 文档规范 开发 编码规范与提交流程 版本管理 测试 测试方法论 CI与异常测试 6/33设计流程 C0 码力 | 33 页 | 2.64 MB | 6 月前3
阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践Kubernetes 集群运维实践 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT自我介绍 •嵌入式、微服务框架 •2017 年加入阿里巴巴,负责阿 里集团数十万集群节点规模化运 维管理系统的研发工作 •2019 年参与集团全面上云项目 并经历了整体架构的云原生升级 演进,稳定支撑双11峰值流量分享内容 • 阿里全站上云 • 神龙 (what & why) • 规模化集群运维实践 • Overlay网络 集团机房 云上机房 基础设施 IDC 系统 基础运维 天基系统 CMDB 安全审计 单机监控 ASI 平台 kubelet/Pouch CI/CD k8s extended Service Mesh 安全容器 运维管控 在离线混部 额度管控 监控体系 多租隔离 上层业务 集 团 业 务运维挑战 • 规模大 • 集群规模大 (数十个集群),节点数量多 (数十万节点) (数十万节点) • 业务线多、应用数量多、应用类型复杂 (有状态、无状态、多语言) • 基础环境复杂 • 大规模 在线、离线 混部 (运维打通) • 装机模板、OS版本、内核版本多;内核补丁、参数不同;其他如网卡中断打散 • 稳定性要求高 • 性能、宕机、夯机、抖动系统架构 • 基础监控 • 秒级、分钟级监控 • 内核性能指标采集 • 监控大盘 • 在线率 • 宕机率 • 抖动率 • 基线系统0 码力 | 21 页 | 7.81 MB | 6 月前3
1.3 Go practices in TiDB 姚维Go Practices in TiDB 姚维 PingCAP wink@pingcap.com Agenda ● How to build a stable database ○ Schrodinger-test platform ○ Failpoint injection ○ Goroutine-leak detection ● Optimization ○ Chunk vs interface{}0 码力 | 32 页 | 1.76 MB | 6 月前3
23-云原生观察性、自动化交付和 IaC 等之道-高磊全生命周期API管理-1 服务是从内研发视角来看的,但是对于外部消费者只想找到并集成API而已,并不想了解API背后的运维细节或者需要协调运维能力!API成了一 种可以交易的商品,可以购买增强自己APP的能力,比如在自己APP里显示天气预报数据,从外部去管理应用平台,形成了一种新PaaS组织方式。 • 逻辑API:已有API的组 合,形成一个新API • 契约驱动研发 • BaaS API:数据库接口、 中间件接口外化成API • API门户:消费者可以 根据领域-能力查询到 想要的API。 • 自动生成SDK方便集成。 • 发行计划:向下兼容, 对比发布 • API文档:每一个API有 一个活档,指导集成。 形成市场,能力 互补 全生命周期API管理-2-Azure API Management 配置Http Header, 比如CORS等 Management • 把自己关在小黑 屋里面,自己就 可以自助的从API 使用角度定义、 驱动研发、发布 或者实施与自己 APP的集成。 • API作为产品,可 以给订阅、可以 被交易。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-1 知道 知道的 不知道 不知道的 主动性 被动性 监控 可观察 健康检查 告警 指标 日志 追踪 问题和根因 预警 监控&稳定性 分析&追踪&排错&探索0 码力 | 24 页 | 5.96 MB | 6 月前3
22-云原生的缘起、云原生底座、PaaS 以及 Service Mesh 等之道-高磊软件组件 运行环境 部署平台 …… …… 应用丰富及架构演进带来的开发和运维复杂性 本地IDC 虚拟化 超融合 公有云 …… 测试环境 生产环境 复杂的应用软件架构,在开发、测试、运维 团队之间建成了认知的“墙”,团队间配合效 率低,故障排查慢,阻碍了软件价值的流动 无法满足用户对于业务快速研发、 监控粒度难以满足微服务应用运维的需要,线上问题难以排查定位,往往需要研发介入 我们需要一种新型的、为云而生的业务承载平台,去应对上述问题。 微服务应 用 大型 单体 应用 VM/服务器 VM/服务 器 VM/服务 器 VM/服务 器 目 标 支持微服务级别的细粒度资源隔离 支持快速扩缩容 支持热升级,服务更新不影响业务可用性 支持服务的快速地部署、扩展、故障转移 支持更细致、自动化的运维,快速恢复 年 P i v o t a l 提 出 云 原 生 概 念 P i v o t a l 、 C N C F 同 时 提 出 云 原 生 是 一 种 充 分 利 用 云 计 算 优 势 构 建 和 运 行 应 用 的 方 式 。 D o c k e r 被 认 为 是 能 够 适 应 于 云 原 生 理 念 的 技 术 , 而 微 服 务 被 认 为 是 适 合 D o c k e r 这 种 环0 码力 | 42 页 | 11.17 MB | 6 月前3
Nacos架构&原理
年的阿里五彩石项目,自主研发完全可控,经历十多年双 11 洪峰考验,沉淀了高性能、 高可用、可扩展的核心能力,2018 年开源后引起了开发者的广泛关注和大量使用。本书也将介绍 Nacos 偏 AP 分布式系统的设计、全异步事件驱动的高性能架构和面向失败设计的高可用设计理念 等。相信开发者阅读后不仅可以更深入了解 Nacos,也有助于提高分布式系统的设计研发能力。 阿里巴巴中间件负责人 - 胡伟琪(白慕) 阿里巴巴在 10 多 本 书详尽介绍了 Nacos 的架构设计、功能使用和最佳实践,推荐分布式应用的开发人员、运维人员和 对该领域感兴趣的技术爱好者阅读。 推荐序 < 8 Facebook 工程师 & CNCF 前 TOC 成员 - 李响 服务注册、发现与配置管理是构成大型分布式系统的基石。Nacos 是集成了这三种能力的现代化、 开源开放的代表系统。本书系统化的介绍了 Nacos 诞生的历史背景以及其在阿里集团内部孕育的过 的崛起,微服务多个模块逐步被划分,包括注册中心、配置中心,如果从 产品定位上,期望定位简单清晰,利于传播,我们需要分别开源我们内部产品,这样又会分散我们 品牌和运营资源。另外大部分客户没有阿里这么大的体量,模块拆分过细,部署和运维成本都会成 倍上涨,而且阿里巴巴也是从最早⼀个产品逐步演化成 3 个产品的,因此我们最终决定将内部三个 产品合并统⼀开源。定位为:⼀个更易于构建云原生应用的动态服务发现、配置管理和服务管理平 台。由于我们在阿里内部发展了0 码力 | 326 页 | 12.83 MB | 9 月前3
逐灵&木苏-阿里巴巴 K8S 超大规模实践经验容器并构建了 AI 集团管理 系统 2017 统一资源池 构建了 Sigma 调度系统,收敛了 众多运维平台之下的资源调度系 统,并构建了集团统一资源池, 在此基础上发展出弹性、混部等 技术成果,大幅降低了数据中心 的资源成本 2019 全面拥抱云原生 阿里业务全面上云,运维体系全 面拥抱云原生,基于 k8s 生态在 阿里内部蓬勃发展。在 2019 双 11 中,k8s 体系支撑了阿里史上 野蛮生长 体验到使用容器部署应用的优势 后,阿里内部发展出众多的运维 平台,包括 AliSwarm,Zeus, Hippo 等,极大地降低了业务运 维的成本 2018 转型 kubernetes 从自研的 Sigma 调度转型到 k8s 体系,初步尝试面向终态的运维 体系,通过 k8s 的方式将 Sigma 调度能力提供给客户为什么 k8s 在阿里能成功 繁荣的社区和生态系统 Available IDC Servers Networking 神龙裸金属 ECS ECI基于 k8s 云原生改造实践落地 k8s 面临的两大难题 向全面云化演进 集群规模庞大 多种工作负载 业务形态多样 运维链路复杂 应用定义标准缺失落地 k8s 面临的主要挑战 What we are moving to Cloud Native: •almost one hundred sites •more0 码力 | 33 页 | 8.67 MB | 6 月前3
27-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊高级能力-自动化-AIoT以及赋能业务-边缘计算(Edge Cloud )-1 远端控制 云端分析系统 设备端 自动化解决用户使用体验问题,计算量属于窄带范畴, 所以计算算力重点在于云端,云端计算体系架构成熟, 成本较低,在业务上本地的设备根据模式信号反馈一些 动作,比如下雨关窗帘,是自动化范畴,上传云端的数 据都是属性数据,比如谁什么时候干了什么,后续云端 根据个人喜好数据为用户提供比如按照个人喜好调节温 大范围为客户赋能,IoT和边缘计算一定走向融合。 定位为基于物模型的计算 定位为基于业务的计算 高级能力-自动化-AIoT以及赋能业务-边缘计算(Edge Cloud )-2 • 为了更好的为客户业 务场景赋能,比如路 口的交通事故识别和 预警等等需要低时延 高算力的场景,需要 实现云边一体纳管, 简化运维,降低成本, 客户专注于业务领域。 • 无论是AIoT还是边缘 计算,核心要素是计 算,计算平台的训练 高级能力-业务双引擎循环驱动-业务数据化、数据业务化 互联网业务、万物互联业务等等造就了海量数据,而海量数据应该也必须能够提炼出价值为业务反向赋能,形成正向业务价值循环 云原生平台(PaaS+Caas+IaaS) 业务系统连接一组人,或者说企业业务实际能力提供者,通过双中台可 以将最上层业务产品诉求直接下沉到能力端,比如我们需要快速搭建一 个电商下单APP,只需要利用中台提供的能力要素,并在APP端组织业务0 码力 | 20 页 | 5.17 MB | 6 月前3
金融级云原生 PaaS 探索与实践三、发布运维体系 目 录 contents 目录3/20 一、业务背景 业务背景4/20 业务背景 业务架构 演进 • 容量 应用|数据库|机房 • 容灾 机房|地域5/20 业务背景 业务架构 单元化 • 高可用 • 一致性 • 可扩展 • 高性能6/20 业务背景 业务诉求 • 运维成本 突发流量应用 | 机房 生命周期 • 运维效率 SaaS 面向站点级别输出7/20 PaaS 能力 • 面向多租户多环境; • 基础资源管控; • 应用发布运维体系; • 业务实时监控,日志收集; • 机房级和地域级容灾能力; 业务背景业务背景 CAFÉ API Server Aggregation Layer 异地多活架构 同城双活架构 K8S API Server 基础发布运维 跨集群应用 资源管理 IaaS层(Ali 心 流 程 两地三中心架构 跨机房和地域统一应用运维 容器运行时 (Docker/Pouch/安全容器) CNI Plugins (VLAN/VXLAN/VPC Router/ENI) CSI Plugins (NAS/OSS/Cloud Disk/Ceph) 网络接入 (SLB/ALB) 容 器 层 跨集群管理 单元化能力 容器镜像管理 批次发布 原生资源管理 Pod伸缩管理0 码力 | 20 页 | 1.71 MB | 6 月前3
24-云原生中间件之道-高磊标准化能力-承载无忧-E2E云原生纵深安全保障DevSecOps-1 Applications Data Runtime Middleware OS Virtualization Servers Storage NetWorking PaaS 硬件与虚拟化厂商提供,如果是HCI架构, 作为总体集成方,会降低安全集成成本 可信计算环境:OS安全、TPM加密、TEE可信环境 缘计算盒子,此时攻击面被放大,在云原生环境下安全是一个核心价值,需要立体纵深式的安全保障。 由于云原生DevOps环境追求效率以及运行态的动态治理能力,导致传统安全实施方法、角色、流程、技术 都发生了很多变化,适应这些变化是落地云原生安全的关键! 标准化能力-承载无忧-E2E云原生纵深安全保障-2-商业价值 腾讯安全战略研究部联合腾讯安全联合实验室近日共同发布《产业互联网安全十大趋势(2021 维等维度为产业互联网的安全建设提供前瞻性的参考和指引,助力夯实产业互联网的安全底座。 《趋势》认为,2021年将进一步完善个人信息保护体系,企业对个人信息利用规范化,数字安全合规管理将成为企业的必备能力。与此同时,企业还 应将安全作为“一把手工程”,在部署数字化转型的同时,推进安全前置。 前沿的数字化技术也让产业安全有了更多内涵。5G、AI、隐私计算等技术在构筑数字大楼的同时,不仅带来了全新的安全场景,也成为网络安全攻防0 码力 | 22 页 | 4.39 MB | 6 月前3
共 167 条
- 1
- 2
- 3
- 4
- 5
- 6
- 17













