36-云原生监控体系建设-秦晓辉云原生监控体系建设 秦晓辉 快猫星云 联合创始人 个人介绍 秦晓辉,常用网名龙渊秦五、UlricQin,山东人,12年 毕业自山东大学,10年经验一直是在运维研发相关方向, 是Open-Falcon、Nightingale、Categraf 等开源软件 的核心研发,快猫星云联合创始人,当前在创业,为客 户提供稳定性保障相关的产品 个人主页:https://ulricqin.github.io/ io/ 大纲 • 云原生之后监控需求的变化 • 从Kubernetes架构来看要监控的组件 • Kubernetes所在宿主的监控 • Kubernetes Node组件监控 • Kubernetes控制面组件监控 • Kubernetes资源对象的监控 • Pod内的业务应用的监控 • 业务应用依赖的中间件的监控 云原生之后监控需求的 变化 云原生之后监控需求的变化 •相比物理机虚拟机时 •原来使用资产视角管理监控对象的系统不再适用 •要么使用注册中心来自动发现,要么就是采集器和被监控对象通过sidecar模式捆绑一体 指标生命周期变短 •微服务的流行,要监控的服务数量大幅增长,是之前的指标数量十倍都不止 •广大研发工程师也更加重视可观测能力的建设,更愿意埋点 •各种采集器层出不穷,都是本着可采尽采的原则,一个中间件实例动辄采集几千个指标 指标数量大幅增长 •老一代监控系统更多的是关注机0 码力 | 32 页 | 3.27 MB | 6 月前3
云原生图数据库解谜、容器化实践与 Serverless 应用实操云原⽣图数据库解谜、容器化实 践与 Serverless 应⽤实操 古思为 ⽅阗 Graph DB on K8s Demystified and its Serverless applicaiton in actions. DEVELOPER ADVOCATE @ MAINTAINER OF KCD China 2021 Nov. 6th @Shanghai 古思为 wey-gu ⽂档:Nebula 架构 官⽹:⽤户案例 ⼀个可靠的分布式、线性扩容、性能⾼效的图数据库 世界上唯⼀能够容纳千亿顶点和万亿条边,并提供毫秒级查询延时的图数据库解决⽅案 云原⽣时代的图数据库 容器化部署演进 Nebula Docker Nebula K8s Nebula Operator Nebula Operator 实现 Kubebuilder Scaffold CRD Control0 码力 | 47 页 | 29.72 MB | 1 年前3
云原生安全威胁分析与能力建设白皮书(来源:中国联通研究院)22 2.2.5 针对镜像不安全配置的攻击................................................................ 22 2.3 路径 2:容器攻击....................................................................................... 23 2.3.1 守护进程攻击........................................................................................23 2.3.2 容器提权和逃逸攻击............................................................................24 2.3.3 拒绝服务攻击 ...................................................................25 云原生安全威胁分析与能力建设白皮书 2 2.3.4 容器网络攻击........................................................................................26 2.40 码力 | 72 页 | 2.44 MB | 1 年前3
25-云原生应用可观测性实践-向阳complexity © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 业界动向 —— 云监控扛把子 Datadog 零侵入 == 全覆盖 == 监控入口 Datadog Universal Service Monitoring 要点: 1、Alerts and SLOs for every service 2、No code the growing complexity © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 业界动向 —— 云厂商监控 阿里云ARMS 问题:依赖于eBPF,仅支持Kernel 4.15+、仅阿里云(K8s需托管) simplify the growing complexity © 2021, YUNSHAN 应用连接方式的变化 应用监控的变化 传统的方法: 开发人员埋点, 标准SDK/JavaAgent, 流量分光镜像。 云原生下的难题: 微服务迭代快, 侵入式监控效率低; 云网络虚拟化, 东西向流量监控难。 挑战/必要性:网络的动态性和复杂性,不监控流量谈何应用可观测 机遇/有效性:云网络连接API/函数,监控流量可零侵入实现应用可观测 è 云原生应用可观测“原力”,流量监控能力是机遇、基石 simplify0 码力 | 39 页 | 8.44 MB | 6 月前3
22-云原生的缘起、云原生底座、PaaS 以及 Service Mesh 等之道-高磊1、信息管理 MIS、ERP… 2、流程规范 BPM、EAI… 3、管理监控 BAM、BI 4、协作平台 OA、CRM 5、数据化运营 SEM、O2O 6、互联网平台 AI、IoT 数据化运营 大数据 智能化管控 互联网平台 跨企业合作 稳态IT:安全、稳定、性能 敏态IT:敏捷、弹性、灵活 如果业务系统要升级,如何平滑升级?万一升级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加 监控 配置 日志采集 测试确认 服务正常运行 实例 加入集群 恢复正常 场景 1 如果生产中一台Web应用服务器故障,恢复这台服务器需要 做哪些事情? 场景 2 如果应用负载升高/降低,如何及时按需扩展/收缩所用 如果业务系统要升级,如何平滑升级?万一升级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加 监控 配置 日志采集 测试确认 服务正常运行 实例 加入集群 恢复正常 工作量 成本 新一代架构(微服务)应用的对承载平台提出新要求 传统实践中,主要采用虚机/物理机+Sprin0 码力 | 42 页 | 11.17 MB | 6 月前3
24-云原生中间件之道-高磊NetWorking PaaS 硬件与虚拟化厂商提供,如果是HCI架构, 作为总体集成方,会降低安全集成成本 可信计算环境:OS安全、TPM加密、TEE可信环境 云原生安全:镜像安全、镜像仓库安全、容器加固隔离、通信零信任 (Istio零信任、Calico零信任、Cilium零信任、WorkLoad鉴权、WorkLoad 间授权等)、DevSecOps(安全左右移等等,比如代码或者镜像扫描)、 R 支持PB级数据存储 高并发: 千亿数据实时分析 数据源 设备监控 传感器 轨迹数据 车联网 业务集群 物联网套件写入 云原生 DB 轨迹查 询|实时 监测 MR 云原 生DB 统计 分析 物联网数据存储和查询 将车联网数据、设备监控数据、客流分析管控数据、交通数据、传感器数据实时 写入HBase中,分析结果输出到用户的监控前端系统展示,实现物联网数据的实时 监控分析。 优势 易接入: 轻松对接消息系统、流计算系统 ,很多场景期望容器的快速启动、灵活的调度,这样即需要存储卷也能敏捷的根据 Pod 的变化而调整。 需求表现在: • 云盘挂载、卸载效率提高:可以灵活的将块设备在不同节点进行快速的挂载切换; • 存储设备问题自愈能力增强:提供存储服务的问题自动修复能力,减少人为干预; • 提供更加灵活的卷大小配置能力。 2. 监控能力需求 • 多数存储服务在底层文件系统级别已经提供了监控能力,然后从云0 码力 | 22 页 | 4.39 MB | 6 月前3
23-云原生观察性、自动化交付和 IaC 等之道-高磊驱动研发、发布 或者实施与自己 APP的集成。 • API作为产品,可 以给订阅、可以 被交易。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-1 知道 知道的 不知道 不知道的 主动性 被动性 监控 可观察 健康检查 告警 指标 日志 追踪 问题和根因 预警 监控&稳定性 分析&追踪&排错&探索 • 从稳定性目标出发,首先需要有提示应用出问题的手段 • 当提示出现问题后,就需要有定位问题位置的手段,进 拓扑流量图:是不是按预期运行 分布式跟踪:哪些调用 故障或者拖慢了系统 监控与告警: 主动告诉我 问题发生了! 微服务部署后就像个黑盒子,如何发现问题并在 远端运维是主要的课题,那么就需要从宏观告知 研发人员,并且提供日志、跟踪、问题根因分析 等工具进一步从微观帮助研发人员定位和解决问 题,这是这里在业务上的价值-稳定性赋能。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-2 可观察性是云原生特 可观察性是云原生特别关注的运维支撑能力,因为它的主动性,正符合云原生对碎片变化的稳定性保障的思想 数据的全面采集 数据的关联分析 统一监控视图与展现 Metric 是指在多个连 续的时间周期 内用于度量的 KPI数值 Tracing 通过TraceId来 标识记录并还 原发生一次分 布式调用的完 整过程和细节 Logging 通过日志记录 执行过程、代 码调试、错误 异常微观信息 数据之间存在很多关联,通过0 码力 | 24 页 | 5.96 MB | 6 月前3
中国移动磐舟DevSecOps平台云原生安全实践• 端到端自动化交付流水线 • 开发过程自主可控 • 一键发布上磐基,实现“乘舟上云,稳如磐基” • 沉淀IT软件资产,核心代码掌控 • 提升开发交付效率 一键 上磐基 构建 打包 容器 化镜 像 自动化 部署 研发安 全扫描 需求 设计 敏捷 开发交付协同 云原生DevSecOps 安全工具链 国产化 双平面调度 敏捷开 发过程 统一代 码仓库 依赖制 品仓库 科技创新成果 中国移动作为国家级高新技术企业,在国内外行业中科技创新成果丰硕。磐舟与磐基团队重视自主创 新与生产融合,拥有多项专利、高新技术、软件著作权等研发成果,建立了领先和成熟的研发体系。 ü 可信云容器解决 方案认证 ü 2021年云安全守卫者 计划优秀案例 ü DevOps解决方案最高等 级先进级的现场认证 ü 2021年通信行业云计算领域风云团队奖 ü 创新解决方案证书 最高等级认证 CODE DEPLOY OPERATE MONITOR RELEASE TEST BUILD DEV BUILD TIME OPS RUN TIME 上线即安全(安全左移)+ 自适应安全(持续监控&响应) SEC 安全需求 业务需求进来以后从五个维度对业务需求进行安全分析 威胁分析模型 威胁资源库 安全需求基线 威胁情报库 病例库 安全开发-安全需求分析 安全需求分析通过将安全策0 码力 | 22 页 | 5.47 MB | 1 年前3
构建统一的云原生应用 可观测性数据平台网络资源 VPC 子网 CIDR IP地址 NATGW ALB … 看云网更清晰 Simplify the growing complexity. 云原生应用的服务属性还有哪些 容器资源 容器集群 容器节点 命名空间 容器服务 Ingress Deployment StatefulSet ReplicaSet POD DeepFlow的典型客户环境中,两个微服务通信涉及到的标签多达上百个 Namespace Simplify the growing complexity. AutoTagging:自动同步资源和服务属性 资源池 区域 可用区 云平台 租户 云资源 宿主机 云服务器 容器资源 容器集群 容器节点 命名空间 容器服务 Ingress Deployment StatefulSet ReplicaSet POD 服务 app version env group owner stage commitId 理解云网络,自动标记端到端数据标签 Labels 自动同步云API、K8s apiserver DeepFlow support list 主机名、IP地址、VPC/隧道ID、对等连接、NAT/LB ➔ 资源标签 工作负载、容器服务、命名空间 ➔ 服务标签 容 器 云 TKE ACK env=prod zone=ZoneA releaseVer sion=12 deployType =canary group=iot0 码力 | 35 页 | 6.75 MB | 1 年前3
27-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊亿美元,去中心化云计算市场约100亿美元。未来,10 年到20年,去中心化云计算、云储存市场有望实现10年 100倍的增长,达到 的规模。 高级能力-精益化运维-云原生AIOps • 传统云原生的运维,虽然依赖于度量, 但是通过监控、日志分析、跟踪链等发 现问题根因所在周期长,依靠人的经验 (并且人的经验无法数据化沉淀),而 得到问题根因后,只能通过人工去修复 或者管理 • 而大数据或者基于监督的AI技术的成熟、 运维领域模型趋于完整、云原生底座也 3 电商核心系统全面上云, 大规模集群支撑集团“双十 一”,日交易额2684亿元 2 0 1 9 T4项目启动,容器调度技 术开始支撑集团的在线业 务,云原生时代开启 2 0 1 1 在线和离线调度系统打通混合 部署,底层资源池统一,支撑 百万级电商交易活动。 云原生技术全面商业化,容器 技术对外开放 2 0 1 7 云原生技术全面升级,阿 里巴巴原生用云, Serverless时代开始。 2 0 稳定的容器运行时、节点自愈能力,结合发 布自动化、资源管理自动化等能力可以实现应用与基础设施层的全面解耦 统一化ServiceMesh 将应用的分布式复杂性问题托付给Mesh层的数据面和控制面组件,实现全链路精准流量控制、 资源动态隔离以及零信任的安全能力,保证应用架构的稳定性目标的实现。 Serverless化 极大地降低了开发人员,特别是服务于前端的后端开发人员的运维负担,亚秒级的容器启动 速0 码力 | 20 页 | 5.17 MB | 6 月前3
共 25 条
- 1
- 2
- 3













