Curve质量监控与运维 - 网易数帆C u r v e 质 量 、 监 控 与 运 维 秦 亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等 多种场景自研的分布式存储系统: 高性能、低延迟 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行近两年 已完整开源 质量——向用户交付稳定可靠的软件; 监控——直观地展示Curve运行状态; 运维——保障Curve始终稳定高效运行。 质量 ✓ 质量管理体系(设计、开发、review、CI) ✓ 测试方法论(单元测试、集成测试、系统测试) 监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示 运维 ✓ 运维特性 (易部署、易升级、自治) ✓ 运维工具(部署工具、管理工具) 4/33背景 01 02 03 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量 软件质量的定义是:软件与明确地和隐含地定义的需求相一致的程度。 为了确保最终交付的软件满足需求,必须将质量控制贯穿于设计、开发到测试的整个流程中。 设计 设计流程 文档规范 开发 编码规范与提交流程 版本管理 测试 测试方法论 CI与异常测试 6/33设计流程 C0 码力 | 33 页 | 2.64 MB | 6 月前3
阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践Kubernetes 集群运维实践 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT自我介绍 •嵌入式、微服务框架 •2017 年加入阿里巴巴,负责阿 里集团数十万集群节点规模化运 维管理系统的研发工作 •2019 年参与集团全面上云项目 并经历了整体架构的云原生升级 演进,稳定支撑双11峰值流量分享内容 • 阿里全站上云 • 神龙 (what & why) • 规模化集群运维实践 • Overlay网络 集团机房 云上机房 基础设施 IDC 系统 基础运维 天基系统 CMDB 安全审计 单机监控 ASI 平台 kubelet/Pouch CI/CD k8s extended Service Mesh 安全容器 运维管控 在离线混部 额度管控 监控体系 多租隔离 上层业务 集 团 业 务运维挑战 • 规模大 • 集群规模大 (数十个集群),节点数量多 (数十万节点) (数十万节点) • 业务线多、应用数量多、应用类型复杂 (有状态、无状态、多语言) • 基础环境复杂 • 大规模 在线、离线 混部 (运维打通) • 装机模板、OS版本、内核版本多;内核补丁、参数不同;其他如网卡中断打散 • 稳定性要求高 • 性能、宕机、夯机、抖动系统架构 • 基础监控 • 秒级、分钟级监控 • 内核性能指标采集 • 监控大盘 • 在线率 • 宕机率 • 抖动率 • 基线系统0 码力 | 21 页 | 7.81 MB | 6 月前3
1.3 Go practices in TiDB 姚维Go Practices in TiDB 姚维 PingCAP wink@pingcap.com Agenda ● How to build a stable database ○ Schrodinger-test platform ○ Failpoint injection ○ Goroutine-leak detection ● Optimization ○ Chunk vs interface{}0 码力 | 32 页 | 1.76 MB | 6 月前3
逐灵&木苏-阿里巴巴 K8S 超大规模实践经验容器并构建了 AI 集团管理 系统 2017 统一资源池 构建了 Sigma 调度系统,收敛了 众多运维平台之下的资源调度系 统,并构建了集团统一资源池, 在此基础上发展出弹性、混部等 技术成果,大幅降低了数据中心 的资源成本 2019 全面拥抱云原生 阿里业务全面上云,运维体系全 面拥抱云原生,基于 k8s 生态在 阿里内部蓬勃发展。在 2019 双 11 中,k8s 体系支撑了阿里史上 的应用扩容体验 2015 野蛮生长 体验到使用容器部署应用的优势 后,阿里内部发展出众多的运维 平台,包括 AliSwarm,Zeus, Hippo 等,极大地降低了业务运 维的成本 2018 转型 kubernetes 从自研的 Sigma 调度转型到 k8s 体系,初步尝试面向终态的运维 体系,通过 k8s 的方式将 Sigma 调度能力提供给客户为什么 k8s 在阿里能成功 IDC Servers Networking 神龙裸金属 ECS ECI基于 k8s 云原生改造实践落地 k8s 面临的两大难题 向全面云化演进 集群规模庞大 多种工作负载 业务形态多样 运维链路复杂 应用定义标准缺失落地 k8s 面临的主要挑战 What we are moving to Cloud Native: •almost one hundred sites •more0 码力 | 33 页 | 8.67 MB | 6 月前3
23-云原生观察性、自动化交付和 IaC 等之道-高磊全生命周期API管理-1 服务是从内研发视角来看的,但是对于外部消费者只想找到并集成API而已,并不想了解API背后的运维细节或者需要协调运维能力!API成了一 种可以交易的商品,可以购买增强自己APP的能力,比如在自己APP里显示天气预报数据,从外部去管理应用平台,形成了一种新PaaS组织方式。 • 逻辑API:已有API的组 问题发生了! 微服务部署后就像个黑盒子,如何发现问题并在 远端运维是主要的课题,那么就需要从宏观告知 研发人员,并且提供日志、跟踪、问题根因分析 等工具进一步从微观帮助研发人员定位和解决问 题,这是这里在业务上的价值-稳定性赋能。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-2 可观察性是云原生特别关注的运维支撑能力,因为它的主动性,正符合云原生对碎片变化的稳定性保障的思想 关联性数据分析可获得故障的 快速界定与定位,辅助人的决 策就会更加精确 根据运维场景和关注点的不同,以不同图表或者曲 线图来表示整体分布式应用的各维度情况,使得开 发人员可以清晰的观测到整体分布式应用的详细运 行情况,为高精度运维提供可视化支撑 人工发展阶段:符合人分析问题的习惯 宏观->微观 精细化发展阶段:依靠数据赋能,加强可视化能力,进一步简化运维 监控告警 分布式跟踪链 日志查询 根因分析 响应动作0 码力 | 24 页 | 5.96 MB | 6 月前3
24-云原生中间件之道-高磊作为总体集成方,会降低安全集成成本 可信计算环境:OS安全、TPM加密、TEE可信环境 云原生安全:镜像安全、镜像仓库安全、容器加固隔离、通信零信任 (Istio零信任、Calico零信任、Cilium零信任、WorkLoad鉴权、WorkLoad 间授权等)、DevSecOps(安全左右移等等,比如代码或者镜像扫描)、 RASP应用安全、数据安全、态势感知与风险隔离 由于云原生托管的应用是碎片化的,环 为企业解决数字化转型后顾之忧的最优解…… 安全是为了预防资产损失,所以当安全投入 的成本大于能够避免的资产损失价值时,变 得毫无意义! 而传统安全开发周期管理由于角色分离、流 程思路老旧、不关注运维安全等问题严重拖 慢了DevOps的效率! 所以急需一种新型的基于云原生理念的安全 角色、流程以及技术的方案! 传 统 安 全 工 作 传 统 由 独 立 安 全 工 程 师 负 责 , 与 开 发 标准化能力-承载无忧-E2E云原生纵深安全保障-4-技术建议方案 技术 说明 优点 缺点 SAST(静态应用程序 安全测试) 白盒测试,通过污点跟踪对源代码或者二进制程序(也包括Docker镜像等) 进行静态扫描,尽可能前置,在IDE编写代码或者提交代码时进行,将极 大优化整体效率和成本 可以无视环境随时可以进行,覆盖漏洞类型全面, 可以精确定位到代码段 路径爆炸问题,并一定与实际相符合,误报率较0 码力 | 22 页 | 4.39 MB | 6 月前3
金融级云原生 PaaS 探索与实践三、发布运维体系 目 录 contents 目录3/20 一、业务背景 业务背景4/20 业务背景 业务架构 演进 • 容量 应用|数据库|机房 • 容灾 机房|地域5/20 业务背景 业务架构 单元化 • 高可用 • 一致性 • 可扩展 • 高性能6/20 业务背景 业务诉求 • 运维成本 突发流量应用 | 机房 生命周期 • 运维效率 PaaS 能力 • 面向多租户多环境; • 基础资源管控; • 应用发布运维体系; • 业务实时监控,日志收集; • 机房级和地域级容灾能力; 业务背景业务背景 CAFÉ API Server Aggregation Layer 异地多活架构 同城双活架构 K8S API Server 基础发布运维 跨集群应用 资源管理 IaaS层(Aliyun/OpenStack/VMWare/Bare 流 程 两地三中心架构 跨机房和地域统一应用运维 容器运行时 (Docker/Pouch/安全容器) CNI Plugins (VLAN/VXLAN/VPC Router/ENI) CSI Plugins (NAS/OSS/Cloud Disk/Ceph) 网络接入 (SLB/ALB) 容 器 层 跨集群管理 单元化能力 容器镜像管理 批次发布 原生资源管理 Pod伸缩管理0 码力 | 20 页 | 1.71 MB | 6 月前3
16-Nocalhost重新定义云原生开发环境-王炜法满⾜开发的配置需求。 云原⽣解放了部署和运维,开发呢? Nocalhost - 重新定义云原⽣开发环境.md 2021/1/20 2 / 7 云原⽣和 Kubernetes 的普及,进⼀步屏蔽了“微服务”应⽤的复杂度,这主要体现在部署和运维阶段。 为了解决微服务应⽤在开发、测试和⽣产阶段环境⼀致性的问题,现代的微服务应⽤开发,都会将每⼀个组 件打包成 Docker 镜像,并以⼯作负载的形式对其进⾏部署。利⽤ 镜像,并以⼯作负载的形式对其进⾏部署。利⽤ DevOps 流⽔线中的持续集成和持续部署, 配合 Kubernetes 探针、HPA、应⽤⾃愈的能⼒,彻底解放了微服务应⽤的部署和运维环节。 但我们忽略了⼀个关键节点:开发阶段 微服务应⽤使⽤ Kubernetes ⼯作负载封装后,解决了开发过程应⽤的快速启动问题,开发⼈员只需要在本地 安装单节点的 Kubernetes 集群,例如 Minikube、Kind 等即可快速启动微服务应⽤。 ,由于应⽤很难在 Docker 容器之外运⾏,所以 每次代码修改,都需要经历以下步骤: 执⾏ docker build 构建镜像 执⾏ docker tag 对镜像进⾏标记 执⾏ docker push 推送镜像到仓库 修改 Kubernetes ⼯作负载的镜像版本 等待镜像拉取结束 等待 Pod 重建 查看修改后的代码效果 这直接拖慢了开发的循环反馈过程,每次修改,动辄需要数分钟甚⾄⼗分钟的等待时间。0 码力 | 7 页 | 7.20 MB | 6 月前3
Service Mesh 发展趋势(续) 蚂蚁金服 | 骑士到中盘路向何方?为前提条件检查结果提供集群级别的全局2级缓存 • 灵活的适配器模型,使其以下操作变得简 单: • 运维添加、使用和删除适配器 • 开发人员创建新的适配器(超过20个适配器)Part 1:ServiceMesh灵魂拷问一:要架构还是要性能? Mixer v1 架构的缺点 • 管理开销 • 管理Mixer是许多客户不想负担的 • 进程外适配器强制运维管理适配器,增加此负担 • 性能 • 即使使用缓存,在数据路径中同步调用Mixer也会增加端到端延迟 • 复杂性 • Mixer使用一组称为模板的核心抽象,来描述传递给适配器的数据。 这些包括“metrics”,“logentry”,“tracepan”等。这些抽 象与后端想要消费的数据不匹配,导致运维需要编写一些手动配置, 以便在规范的 Istio 样式和后端特定的样式之间进行映射。原本期望 这种映射可以在适配器中实现很大程度上的自动化,但是最终还是 太复杂并需要手动配置。如果要性能,该怎么做? complexity. Mixer-In-Proxy/Mixer合并进Proxy。 Mixer 将用C ++重写并直接嵌入到Envoy。 将不再有任何独立的 Mixer 服务。 这将提高性能 并降低运维复杂性。Part 2:ServiceMesh灵魂拷问二:性能有了,架构怎么办? 性能有了,架构怎么办? Mixer合并到Sidecar之后Part 2:ServiceMesh灵魂拷问二:性能有了,架构怎么办?0 码力 | 43 页 | 2.90 MB | 6 月前3
Nacos架构&原理
就是本书 介绍的主角 Nacos,经过三年时间的发展,Nacos 已经被大量开发者和企业客户用于生产环境,本 书详尽介绍了 Nacos 的架构设计、功能使用和最佳实践,推荐分布式应用的开发人员、运维人员和 对该领域感兴趣的技术爱好者阅读。 推荐序 < 8 Facebook 工程师 & CNCF 前 TOC 成员 - 李响 服务注册、发现与配置管理是构成大型分布式系统的基石。Nacos 是集成了这三种能力的现代化、 的崛起,微服务多个模块逐步被划分,包括注册中心、配置中心,如果从 产品定位上,期望定位简单清晰,利于传播,我们需要分别开源我们内部产品,这样又会分散我们 品牌和运营资源。另外大部分客户没有阿里这么大的体量,模块拆分过细,部署和运维成本都会成 倍上涨,而且阿里巴巴也是从最早⼀个产品逐步演化成 3 个产品的,因此我们最终决定将内部三个 产品合并统⼀开源。定位为:⼀个更易于构建云原生应用的动态服务发现、配置管理和服务管理平 台。由于我们在阿里内部发展了 出来独立管理,以独立的配 置文件的形式存在。目的是让静态的系统工件或者交付物(如 WAR,JAR 包等)更好地和实际的物 理运行环境进行适配。配置管理⼀般包含在系统部署的过程中,由系统管理员或者运维人员完成这 个步骤。配置变更是调整系统运行时的行为的有效手段之⼀。 配置管理 (Configuration Management) 在 Nacos 中,系统中所有配置的存储、编辑、删除、灰度管理、历史版本管理、变更审计等所有0 码力 | 326 页 | 12.83 MB | 9 月前3
共 123 条
- 1
- 2
- 3
- 4
- 5
- 6
- 13













