36-云原生监控体系建设-秦晓辉云原生监控体系建设 秦晓辉 快猫星云 联合创始人 个人介绍 秦晓辉,常用网名龙渊秦五、UlricQin,山东人,12年 毕业自山东大学,10年经验一直是在运维研发相关方向, 是Open-Falcon、Nightingale、Categraf 等开源软件 的核心研发,快猫星云联合创始人,当前在创业,为客 户提供稳定性保障相关的产品 个人主页:https://ulricqin.github.io/ io/ 大纲 • 云原生之后监控需求的变化 • 从Kubernetes架构来看要监控的组件 • Kubernetes所在宿主的监控 • Kubernetes Node组件监控 • Kubernetes控制面组件监控 • Kubernetes资源对象的监控 • Pod内的业务应用的监控 • 业务应用依赖的中间件的监控 云原生之后监控需求的 变化 云原生之后监控需求的变化 •相比物理机虚拟机时 •原来使用资产视角管理监控对象的系统不再适用 •要么使用注册中心来自动发现,要么就是采集器和被监控对象通过sidecar模式捆绑一体 指标生命周期变短 •微服务的流行,要监控的服务数量大幅增长,是之前的指标数量十倍都不止 •广大研发工程师也更加重视可观测能力的建设,更愿意埋点 •各种采集器层出不穷,都是本着可采尽采的原则,一个中间件实例动辄采集几千个指标 指标数量大幅增长 •老一代监控系统更多的是关注机0 码力 | 32 页 | 3.27 MB | 6 月前3
25-云原生应用可观测性实践-向阳complexity © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 业界动向 —— 云监控扛把子 Datadog 零侵入 == 全覆盖 == 监控入口 Datadog Universal Service Monitoring 要点: 1、Alerts and SLOs for every service 2、No code the growing complexity © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 业界动向 —— 云厂商监控 阿里云ARMS 问题:依赖于eBPF,仅支持Kernel 4.15+、仅阿里云(K8s需托管) simplify the growing complexity © 2021, YUNSHAN 80%看代码 20% 看流量 20% 看代码 80%看流量 应用连接方式的变化 应用监控的变化 传统的方法: 开发人员埋点, 标准SDK/JavaAgent, 流量分光镜像。 云原生下的难题: 微服务迭代快, 侵入式监控效率低; 云网络虚拟化, 东西向流量监控难。 挑战/必要性:网络的动态性和复杂性,不监控流量谈何应用可观测 机遇/有效性:云网络连接API/函数,监控流量可零侵入实现应用可观测 è0 码力 | 39 页 | 8.44 MB | 6 月前3
云原生安全威胁分析与能力建设白皮书(来源:中国联通研究院)云原生在改变了企业上云及构建新一代基础设施的同时,作为一项新兴技术 也带来了一系列新的问题,对企业原有的信息安全防护模式提出了新的挑战,例 如,微服务、容器运行时的短生命周期、CI/CD 全流程监控缺失、镜像及供应链 的复杂性等。另外,云原生技术生态涵盖基础设施到 DevOps 开发多个维度, 这打破了原有的信息安全视角。在应对不断出现的针对云原生基础设施、平台及 容器的安全威胁过程中, 云原生安全作为一种新兴的安全理念,不仅要解决云计算普及带来的安全问 云原生安全威胁分析与能力建设白皮书 17 题,更应强调以原生的思维构建云、端一体化安全,推动安全与云计算的深度融 合,达到安全左移、持续监控与持续响应的目标。 1.3 云原生安全风险 云原生技术的应用带来了更多的安全风险,包括容器化基础设施风险、容器 编排平台的风险、云原生应用的风险等,这些风险对云网构成越来越严重的威胁。 例如企业云、5G 间的网络缺乏安全管理机制,无法对同一宿主机内各容器之间的网络访问权限进 行限制。因此,无法避免容器间互相攻击的安全风险。容器网络所面临的攻击主 要包括容器网络内部攻击和容器网络外部攻击。 容器网络内部,由于网络流量不通过物理网卡而在宿主机内部的容器通信, 存在容器虚拟网络间的 DoS 攻击风险。容器网络外部,由于宿主机上的所有容 器共享物理网卡资源,若外部攻击者向某一个目标容器发送大量数据包进行 DDoS0 码力 | 72 页 | 2.44 MB | 1 年前3
22-云原生的缘起、云原生底座、PaaS 以及 Service Mesh 等之道-高磊1、信息管理 MIS、ERP… 2、流程规范 BPM、EAI… 3、管理监控 BAM、BI 4、协作平台 OA、CRM 5、数据化运营 SEM、O2O 6、互联网平台 AI、IoT 数据化运营 大数据 智能化管控 互联网平台 跨企业合作 稳态IT:安全、稳定、性能 敏态IT:敏捷、弹性、灵活 如果业务系统要升级,如何平滑升级?万一升级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加 监控 配置 日志采集 测试确认 服务正常运行 实例 加入集群 恢复正常 场景 1 如果生产中一台Web应用服务器故障,恢复这台服务器需要 做哪些事情? 场景 2 如果应用负载升高/降低,如何及时按需扩展/收缩所用 如果业务系统要升级,如何平滑升级?万一升级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加 监控 配置 日志采集 测试确认 服务正常运行 实例 加入集群 恢复正常 工作量 成本 新一代架构(微服务)应用的对承载平台提出新要求 传统实践中,主要采用虚机/物理机+Sprin0 码力 | 42 页 | 11.17 MB | 6 月前3
24-云原生中间件之道-高磊大优化整体效率和成本 可以无视环境随时可以进行,覆盖漏洞类型全面, 可以精确定位到代码段 路径爆炸问题,并一定与实际相符合,误报率较 高。 DAST(动态安全应用 程序安全测试) 黑盒测试,通过模拟业务流量发起请求,进行模糊测试,比如故障注入 或者混沌测试 语言无关性,很高的精确度。 难以覆盖复杂的交互场景,测试过程对业务造成 较大的干扰,会产生大量的报错和脏数据,所以 建议在业务低峰时进行。 IAST(交互式应用程序 支持PB级数据存储 高并发: 千亿数据实时分析 数据源 设备监控 传感器 轨迹数据 车联网 业务集群 物联网套件写入 云原生 DB 轨迹查 询|实时 监测 MR 云原 生DB 统计 分析 物联网数据存储和查询 将车联网数据、设备监控数据、客流分析管控数据、交通数据、传感器数据实时 写入HBase中,分析结果输出到用户的监控前端系统展示,实现物联网数据的实时 监控分析。 优势 易接入: 轻松对接消息系统、流计算系统 问题自动修复能力,减少人为干预; • 提供更加灵活的卷大小配置能力。 2. 监控能力需求 • 多数存储服务在底层文件系统级别已经提供了监控能力,然后从云原生数据卷角度的监控能力仍需要加强,目前提供的PV监控数据维度较 少、监控力度较低; 具体需求: • 提供更细力度(目录)的监控能力; • 提供更多维度的监控指标:读写时延、读写频率、IO 分布等指标; 3. 性能要求 • 在大数据计算0 码力 | 22 页 | 4.39 MB | 6 月前3
云原生微服务最佳实践开发态Dev 安全态Sec 发布态 高可用 测试态Test • 服务契约管理 • 服务调试 • 服务Mock • 端云互联 • 开发环境隔离 • 服务压测 • 自动化回归 • 流量录制 • 流量回放 • 无损上下线 • 服务预热 • 金丝雀发布 • A/B Test • 全链路灰度 • 服务鉴权 • 漏洞防护 • 配置鉴权 • 离群实例摘除 • 限流降级 • 同AZ优先路由 4、安全域不同 5、跨region 云原生网关 云原生网关 Fuction(Serverless) App1(单体应用) 证书管理 认证登录 三方认证 WAF防护 限流熔断 风险预警 统一接入 流量调度 用户故事 • 来电 微服务治理全链路灰度最佳实践 • 斯凯奇 云原生网关最佳实践 来电 微服务治理全链路灰度最佳实践 app 充电宝设备节点 web 网关 服务注册发现 配置中心 pos web MSE 云原生网关 认证鉴权服务 primweb web 订单中心 促销中心 商品中心 库存中心 渠道中心 用户中心 营销中心 会员中心 日志服务 安全 全链路监控 web服务 ES 云数据库 Rredis 版 RDS 云数据库 POLARDB 微服务中心 限流熔断 消息队列 AHAS ARMS SLS Web应⽤防⽕墙 分布式任务LTS0 码力 | 20 页 | 6.76 MB | 1 年前3
02. Kubevela 以应用为中心的渐进式发布 - 孙健波某游戏公司自定义workload Pinterest 构建一个渐进式发布能力需要解决哪些 问题? • 版本化 • 分批发布 • 滚动发布/原地发布 • 发布暂停 • 发布回滚 • 日志监控 • 健康检查 • 多版本部署 • 多版本流量灰度 • 多集群/多环境灰度 • … KubeVela 具备全部发布能力 的标准化应用管理引擎 KubeVela 简介 第二部分 What is KubeVela? KubeCon 其他封装 Trait 自身 CRD对象 使用方式 (json schema) 示例:上线新功能 metrics 平台研发团队: ● 开发了一个新 Operator 叫做 metrics(监控) ● 编写一个 K8s 能力描述文件 metrics.yaml 平台管理员: ● 执行 $ kubectl apply -f metrics.yaml 用户: ● 立刻就可以在 Application 再实际操作资源,只生成版本快照 控制器 循环 Application Deployment K8s Resource v1 K8s Resource v2 K8s Resource v3 指定不同版本的流量配比 多集群部署 ENV 2 ENV 3 ENV 1 更大Scope: 多环境/多集群/多版本 --渐进式发布 AppRevision v1 AppRevision v2 AppRevision0 码力 | 26 页 | 9.20 MB | 1 年前3
23-云原生观察性、自动化交付和 IaC 等之道-高磊标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-1 知道 知道的 不知道 不知道的 主动性 被动性 监控 可观察 健康检查 告警 指标 日志 追踪 问题和根因 预警 监控&稳定性 分析&追踪&排错&探索 • 从稳定性目标出发,首先需要有提示应用出问题的手段 • 当提示出现问题后,就需要有定位问题位置的手段,进 一步要有能够指出问题根因、甚至提前就预警的手段。 拓扑流量图:是不是按预期运行 拓扑流量图:是不是按预期运行 分布式跟踪:哪些调用 故障或者拖慢了系统 监控与告警: 主动告诉我 问题发生了! 微服务部署后就像个黑盒子,如何发现问题并在 远端运维是主要的课题,那么就需要从宏观告知 研发人员,并且提供日志、跟踪、问题根因分析 等工具进一步从微观帮助研发人员定位和解决问 题,这是这里在业务上的价值-稳定性赋能。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-2 可观察性是云原生特别 可观察性是云原生特别关注的运维支撑能力,因为它的主动性,正符合云原生对碎片变化的稳定性保障的思想 数据的全面采集 数据的关联分析 统一监控视图与展现 Metric 是指在多个连 续的时间周期 内用于度量的 KPI数值 Tracing 通过TraceId来 标识记录并还 原发生一次分 布式调用的完 整过程和细节 Logging 通过日志记录 执行过程、代 码调试、错误 异常微观信息 数据之间存在很多关联,通过 关联性数据分析可获得故障的0 码力 | 24 页 | 5.96 MB | 6 月前3
27-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊亿美元,去中心化云计算市场约100亿美元。未来,10 年到20年,去中心化云计算、云储存市场有望实现10年 100倍的增长,达到 的规模。 高级能力-精益化运维-云原生AIOps • 传统云原生的运维,虽然依赖于度量, 但是通过监控、日志分析、跟踪链等发 现问题根因所在周期长,依靠人的经验 (并且人的经验无法数据化沉淀),而 得到问题根因后,只能通过人工去修复 或者管理 • 而大数据或者基于监督的AI技术的成熟、 运维领域模型趋于完整、云原生底座也 时、节点自愈能力,结合发 布自动化、资源管理自动化等能力可以实现应用与基础设施层的全面解耦 统一化ServiceMesh 将应用的分布式复杂性问题托付给Mesh层的数据面和控制面组件,实现全链路精准流量控制、 资源动态隔离以及零信任的安全能力,保证应用架构的稳定性目标的实现。 Serverless化 极大地降低了开发人员,特别是服务于前端的后端开发人员的运维负担,亚秒级的容器启动 速度和单物理机千 等资源费用,包括BCC、CDS、EIP、BLB等。 这些资源将按照对应的云服务的计费标准单独计费,不会体现在PaaS的账单中。 • 在使用PaaS的过程中,为了保存您的应用元数据和状态信息、提供应用监控和日志采集、服务注册 和配置中心等功能,PaaS需要消耗公共的计算、存储和数据库等资源为您提供服务,因此PaaS将根据 您使用的工作空间的规格向您收取管理费用,直接体现在PaaS的账单中。 • 服务0 码力 | 20 页 | 5.17 MB | 6 月前3
01. MOSN 高性能网络扩展实践 - 王发康Request MOSN 做业务扩展 • 扩展非 xDS 服务发现 • 扩展 L4/L7 filter • 扩展 Xprotocol 支持 • Debug 及 Admin 管理 • Metrics 监控统计 Envoy 复用基础能力 • 复用高效 Eventloop 模型 • 复用 xDS 服务元数据通道 • 复用 L4/L7 filter • 复用 Cluster LB • 复用 State MoE 相比于 Envoy 性能下降 20%,虽然牺牲部分性能,但解决了用户在其可扩展 性、灵活性、生态上的痛点,另外对性能方面也有优化空间: 经济体互通网关蚂蚁侧场景,当前灰度了少量的线上流量,已经平稳运行了 1 个月左右; • 业务代码优化,如减少对象数量 • 内存管理优化,如 jemalloc 替换 tcmalloc、堆外内存 • runtime 相关优化,如 cgocheck0 码力 | 29 页 | 2.80 MB | 1 年前3
共 20 条
- 1
- 2













