36-云原生监控体系建设-秦晓辉云原生监控体系建设 秦晓辉 快猫星云 联合创始人 个人介绍 秦晓辉,常用网名龙渊秦五、UlricQin,山东人,12年 毕业自山东大学,10年经验一直是在运维研发相关方向, 是Open-Falcon、Nightingale、Categraf 等开源软件 的核心研发,快猫星云联合创始人,当前在创业,为客 户提供稳定性保障相关的产品 个人主页:https://ulricqin.github.io/ io/ 大纲 • 云原生之后监控需求的变化 • 从Kubernetes架构来看要监控的组件 • Kubernetes所在宿主的监控 • Kubernetes Node组件监控 • Kubernetes控制面组件监控 • Kubernetes资源对象的监控 • Pod内的业务应用的监控 • 业务应用依赖的中间件的监控 云原生之后监控需求的 变化 云原生之后监控需求的变化 •相比物理机虚拟机时 •原来使用资产视角管理监控对象的系统不再适用 •要么使用注册中心来自动发现,要么就是采集器和被监控对象通过sidecar模式捆绑一体 指标生命周期变短 •微服务的流行,要监控的服务数量大幅增长,是之前的指标数量十倍都不止 •广大研发工程师也更加重视可观测能力的建设,更愿意埋点 •各种采集器层出不穷,都是本着可采尽采的原则,一个中间件实例动辄采集几千个指标 指标数量大幅增长 •老一代监控系统更多的是关注机0 码力 | 32 页 | 3.27 MB | 6 月前3
23-云原生观察性、自动化交付和 IaC 等之道-高磊驱动研发、发布 或者实施与自己 APP的集成。 • API作为产品,可 以给订阅、可以 被交易。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-1 知道 知道的 不知道 不知道的 主动性 被动性 监控 可观察 健康检查 告警 指标 日志 追踪 问题和根因 预警 监控&稳定性 分析&追踪&排错&探索 • 从稳定性目标出发,首先需要有提示应用出问题的手段 • 当提示出现问题后,就需要有定位问题位置的手段,进 拓扑流量图:是不是按预期运行 分布式跟踪:哪些调用 故障或者拖慢了系统 监控与告警: 主动告诉我 问题发生了! 微服务部署后就像个黑盒子,如何发现问题并在 远端运维是主要的课题,那么就需要从宏观告知 研发人员,并且提供日志、跟踪、问题根因分析 等工具进一步从微观帮助研发人员定位和解决问 题,这是这里在业务上的价值-稳定性赋能。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-2 可观察性是云原生特 可观察性是云原生特别关注的运维支撑能力,因为它的主动性,正符合云原生对碎片变化的稳定性保障的思想 数据的全面采集 数据的关联分析 统一监控视图与展现 Metric 是指在多个连 续的时间周期 内用于度量的 KPI数值 Tracing 通过TraceId来 标识记录并还 原发生一次分 布式调用的完 整过程和细节 Logging 通过日志记录 执行过程、代 码调试、错误 异常微观信息 数据之间存在很多关联,通过0 码力 | 24 页 | 5.96 MB | 6 月前3
中国移动磐舟DevSecOps平台云原生安全实践CODE DEPLOY OPERATE MONITOR RELEASE TEST BUILD DEV BUILD TIME OPS RUN TIME 上线即安全(安全左移)+ 自适应安全(持续监控&响应) SEC 安全需求 业务需求进来以后从五个维度对业务需求进行安全分析 威胁分析模型 威胁资源库 安全需求基线 威胁情报库 病例库 安全开发-安全需求分析 安全需求分析通过将安全策 进行语法、语义分析的技术上,辅以数据流 分析、控制流分析和特有的缺陷分析算法等高级静态分析手段,能够高效的检测出软件源代码中的可能导致严重 缺陷漏洞和系统运行异常的安全问题和程序缺陷,并准确定位告警,从而有效的帮助开发人员消除代码中的缺陷、 培养安全开发意识,提高安全开发水平、减少不必要的软件补丁升级,为软件的信息安全保驾护航。 发起工程检 测 查看工程缺 陷 缺陷审计 派发线下整 病毒、木马进行检测;针 对 镜 像 文件中的SSH密钥 、 环境变量中的密码等敏感 信息进行发现,防止敏感 信息泄露。 构建历史命令审计 对镜像文件构建的历史命 令进行审计扫描,对高危 操作进行标记并告警。 镜像发布管控 镜像在被发布之前,依据 安全策略对镜像进行检测 , 或者依据检测结果对镜像 发布流程进行放行或者阻 断、忽略操作,防止危险 镜像通过发版。 安全测试-APP扫描0 码力 | 22 页 | 5.47 MB | 1 年前3
25-云原生应用可观测性实践-向阳complexity © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 业界动向 —— 云监控扛把子 Datadog 零侵入 == 全覆盖 == 监控入口 Datadog Universal Service Monitoring 要点: 1、Alerts and SLOs for every service 2、No code the growing complexity © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 业界动向 —— 云厂商监控 阿里云ARMS 问题:依赖于eBPF,仅支持Kernel 4.15+、仅阿里云(K8s需托管) simplify the growing complexity © 2021, YUNSHAN 应用连接方式的变化 应用监控的变化 传统的方法: 开发人员埋点, 标准SDK/JavaAgent, 流量分光镜像。 云原生下的难题: 微服务迭代快, 侵入式监控效率低; 云网络虚拟化, 东西向流量监控难。 挑战/必要性:网络的动态性和复杂性,不监控流量谈何应用可观测 机遇/有效性:云网络连接API/函数,监控流量可零侵入实现应用可观测 è 云原生应用可观测“原力”,流量监控能力是机遇、基石 simplify0 码力 | 39 页 | 8.44 MB | 6 月前3
基于Consul的多Beats接入管控与多ES搜索编排化、界面化、自动化的日志接入方案 5 案例:1000+业务10000+台 主机如何快速实现日志接入? 业务规模 1000+业务、 10000+业务主机、每天百T日志增量 日志需求 收集业务日志文件用于故障分析与告警监控 收集主机性能数据做容量分析 日志热数据保存七天 历史数据冷备一个月 其他诉求 日志上报不能影响核心业务 数据上报延时可感知 准备ES 安装Filebeat 编写Filebeat配置文件 准 • 快速接入(5min) • 配置UI化标准化 • 配置变更实时感知 • 部署全自动化 • 多Beats支持 • Beats运行时cpu/mem可控 • Agent监控视图 • 离线/容量/延时监控 • 分布式集群管理 • 异常快速定位 • 关联公司CMDB • 资源权限管理 • 配置灰度控制发布 • 配置一致性检测 • 日志覆盖率 12 案例:如何管控整个日志数据流相关资源性能与容量? 案例:如何管控整个日志数据流相关资源性能与容量? 资源限制 cgroup cpulimit 定时检测 kill nice值 beats优化 缓存设置 工作协程 设置 资源配额 调整 Agent运行时监控 日志延时分析 Beats cpu/mem管控 ES/kafka容量管理 日志覆盖率分析 13 案例:高并发写入场景下Beats与ES性能优化 日志上报是 否有延时? Filebeat资0 码力 | 23 页 | 6.65 MB | 1 年前3
云原生安全威胁分析与能力建设白皮书(来源:中国联通研究院)云原生在改变了企业上云及构建新一代基础设施的同时,作为一项新兴技术 也带来了一系列新的问题,对企业原有的信息安全防护模式提出了新的挑战,例 如,微服务、容器运行时的短生命周期、CI/CD 全流程监控缺失、镜像及供应链 的复杂性等。另外,云原生技术生态涵盖基础设施到 DevOps 开发多个维度, 这打破了原有的信息安全视角。在应对不断出现的针对云原生基础设施、平台及 容器的安全威胁过程中, 云原生安全作为一种新兴的安全理念,不仅要解决云计算普及带来的安全问 云原生安全威胁分析与能力建设白皮书 17 题,更应强调以原生的思维构建云、端一体化安全,推动安全与云计算的深度融 合,达到安全左移、持续监控与持续响应的目标。 1.3 云原生安全风险 云原生技术的应用带来了更多的安全风险,包括容器化基础设施风险、容器 编排平台的风险、云原生应用的风险等,这些风险对云网构成越来越严重的威胁。 例如企业云、5G ,应采用加密协议等进行数据 传输,保障数据在传输过程中的安全。 (2)代码仓库安全 代码仓库中存储的源代码和相关开发资产的完整性、机密性和可用性极为重 要。用户需强化身份验证和授权管理,通过监控和审计实现对访问的严格控制, 并定期进行漏洞扫描发现并纠正潜在的安全漏洞,同时通过强密码和多因素身份 验证等手段增强用户身份验证的安全性。此外,需要形成定期备份和灾难恢复流 程机制。 (3)镜像仓库安全0 码力 | 72 页 | 2.44 MB | 1 年前3
云原生图数据库解谜、容器化实践与 Serverless 应用实操本质上来看,事件框架也是⼀个由事件驱动的⼯作负载,那么它本身可以是 Serverless 形式的⼯作负载吗? 可以⽤ OpenFunction 的异步函数来驱动吗? ⾃定义⽇志告警 以 Serverless 的⽅式⽤ OpenFunction 异步函数实现⽇志告警 OpenFunction 社区 交流、参与、演进 OpenFunction Roadmap OpenFunction Community → https://github0 码力 | 47 页 | 29.72 MB | 1 年前3
24-云原生中间件之道-高磊支持PB级数据存储 高并发: 千亿数据实时分析 数据源 设备监控 传感器 轨迹数据 车联网 业务集群 物联网套件写入 云原生 DB 轨迹查 询|实时 监测 MR 云原 生DB 统计 分析 物联网数据存储和查询 将车联网数据、设备监控数据、客流分析管控数据、交通数据、传感器数据实时 写入HBase中,分析结果输出到用户的监控前端系统展示,实现物联网数据的实时 监控分析。 优势 易接入: 轻松对接消息系统、流计算系统 问题自动修复能力,减少人为干预; • 提供更加灵活的卷大小配置能力。 2. 监控能力需求 • 多数存储服务在底层文件系统级别已经提供了监控能力,然后从云原生数据卷角度的监控能力仍需要加强,目前提供的PV监控数据维度较 少、监控力度较低; 具体需求: • 提供更细力度(目录)的监控能力; • 提供更多维度的监控指标:读写时延、读写频率、IO 分布等指标; 3. 性能要求 • 在大数据计算 集群管理能力的 Operator。其使用 CRD 方式来对 Ceph、Minio 等存储资源进 行部署和管理。 Ceph文件存储 MiniO对象存储 • Operator:实现自动启动存储集群,并监控存储守护进程,并确保存储 集群的健康; • Agent:在每个存储节点上运行,并部署一个 CSI / FlexVolume 插件, 和 Kubernetes 的存储卷控制框架进行集成。Agent 处理所有的存储操0 码力 | 22 页 | 4.39 MB | 6 月前3
22-云原生的缘起、云原生底座、PaaS 以及 Service Mesh 等之道-高磊1、信息管理 MIS、ERP… 2、流程规范 BPM、EAI… 3、管理监控 BAM、BI 4、协作平台 OA、CRM 5、数据化运营 SEM、O2O 6、互联网平台 AI、IoT 数据化运营 大数据 智能化管控 互联网平台 跨企业合作 稳态IT:安全、稳定、性能 敏态IT:敏捷、弹性、灵活 如果业务系统要升级,如何平滑升级?万一升级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加 监控 配置 日志采集 测试确认 服务正常运行 实例 加入集群 恢复正常 场景 1 如果生产中一台Web应用服务器故障,恢复这台服务器需要 做哪些事情? 场景 2 如果应用负载升高/降低,如何及时按需扩展/收缩所用 如果业务系统要升级,如何平滑升级?万一升级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加 监控 配置 日志采集 测试确认 服务正常运行 实例 加入集群 恢复正常 工作量 成本 新一代架构(微服务)应用的对承载平台提出新要求 传统实践中,主要采用虚机/物理机+Sprin0 码力 | 42 页 | 11.17 MB | 6 月前3
02. Kubevela 以应用为中心的渐进式发布 - 孙健波经验才能开发 某游戏公司自定义workload Pinterest 构建一个渐进式发布能力需要解决哪些 问题? • 版本化 • 分批发布 • 滚动发布/原地发布 • 发布暂停 • 发布回滚 • 日志监控 • 健康检查 • 多版本部署 • 多版本流量灰度 • 多集群/多环境灰度 • … KubeVela 具备全部发布能力 的标准化应用管理引擎 KubeVela 简介 第二部分 What is 其他封装 Trait 自身 CRD对象 使用方式 (json schema) 示例:上线新功能 metrics 平台研发团队: ● 开发了一个新 Operator 叫做 metrics(监控) ● 编写一个 K8s 能力描述文件 metrics.yaml 平台管理员: ● 执行 $ kubectl apply -f metrics.yaml 用户: ● 立刻就可以在 Application0 码力 | 26 页 | 9.20 MB | 1 年前3
共 17 条
- 1
- 2













