探讨和实践基于Istio的微服务治理事件监控Service Mesh Meetup #4 上海站 探讨和实践基于Istio的微服务治理事件监控 2018.11.25 徐运元关于我 2008年毕业于浙江大学,曾在思科和浙大网新有超过 9年的工作经验和5年的云计算领域工作经验,带领团 队完成公司第一代基于Kubernetes的云平台开发和第 二代基于Kubernetes的DevOps云平台开发。目前致力 于公司基于Istio的微服务平台打造。 Metrics Logging Tracing 指标监控 • 指标可被聚合 • 体现系统性能趋势 分布式追踪 • 和请求相关 • HTTP • SQL 日志系统 • 代码逻辑处理事件 • 异常、debug信息容器化和微服务下的监控需求 微观下的监控需求 快速错误追踪 可快速排查在性能测试场景下的 慢方法、异常调用以及异常报文 等信息 单次链路追踪 可细粒度排查应用单次链路调用0 码力 | 29 页 | 8.37 MB | 6 月前3
Nacos架构&原理
年的阿里五彩石项目,自主研发完全可控,经历十多年双 11 洪峰考验,沉淀了高性能、 高可用、可扩展的核心能力,2018 年开源后引起了开发者的广泛关注和大量使用。本书也将介绍 Nacos 偏 AP 分布式系统的设计、全异步事件驱动的高性能架构和面向失败设计的高可用设计理念 等。相信开发者阅读后不仅可以更深入了解 Nacos,也有助于提高分布式系统的设计研发能力。 阿里巴巴中间件负责人 - 胡伟琪(白慕) 阿里巴巴在 插件机制:实现三个模块可分可合能力,实现扩展点 SPI 机制,用于扩展自己公司定制。 事件机制:实现异步化事件通知,SDK 数据变化异步通知等逻辑,是 Nacos 高性能的关键部分。 日志模块:管理日志分类,日志级别,日志可移植性(尤其避免冲突),日志格式,异常码+帮 助文档。 回调机制:SDK 通知数据,通过统⼀的模式回调用户处理。接口和数据结构需要具备可扩展性。 寻址模式:解决 Server Eureka 协议的优点并加以优化而出 来的,对于原生的 Gossip,由于随机选取发送消息的节点,也就不可避免的存在消息重复发送给同 ⼀节点的情况,增加了网络的传输的压力,也给消息节点带来额外的处理负载,而 Distro 算法引入 了权威 Server 的概念,每个节点负责⼀部分数据以及将自己的数据同步给其他节点,有效的降低 了消息冗余的问题。 早期的 Nacos ⼀致性协议 我们先来看看早起的0 码力 | 326 页 | 12.83 MB | 9 月前3
TiDB v8.2 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 82 3.4.5 HTAP 数据处理 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 定期删除过期数据 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 273 4.6.5 预处理语句 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 373 4.8.4 事务错误处理· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·0 码力 | 4987 页 | 102.91 MB | 10 月前3
TiDB v8.5 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 101 3.4.5 HTAP 数据处理 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 定期删除过期数据 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 293 4.6.5 预处理语句 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 444 4.9.4 事务错误处理· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·0 码力 | 5095 页 | 104.54 MB | 10 月前3
TiDB v8.4 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 98 3.4.5 HTAP 数据处理 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 定期删除过期数据 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 289 4.6.5 预处理语句 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 440 4.9.4 事务错误处理· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·0 码力 | 5072 页 | 104.05 MB | 10 月前3
TiDB中文技术文档(auto-failover),无需人工介入。 一站式 HTAP 解决方案 TiDB 作为典型的 OLTP 行存数据库,同时兼具强大的 OLAP 性能,配合 TiSpark,可提供一站式 HTAP 解决方案,一份存储同时处理 OLTP & OLAP,无需传统繁琐的 ETL 过程。 云原生 SQL 数据库 TiDB 是为云而设计的数据库,同 Kubernetes 深度耦合,支持公有云、私有云和混合云,使部署、配置和 维护变得十分简单。 书栈(BookStack.CN) 构建 要深入了解 TiDB 的水平扩展和高可用特点,首先需要了解 TiDB 的整体架构。 TiDB 集群主要分为三个组件: TiDB Server 负责接收 SQL 请求,处理 SQL 相关的逻辑,并通过 PD 找到存储计算所需数据的 TiKV 地址, 与 TiKV 交互获取数据,最终返回结果。 TiDB Server 是无状态的,其本身并不存储数据,只负责计算,可以无限水平扩展,可以通过负载均衡组件(如 书栈(BookStack.CN) 构建 无限水平扩展是 TiDB 的一大特点,这里说的水平扩展包括两方面:计算能力和存储能力。TiDB Server 负责处理 SQL 请求,随着业务的增长,可以简单的添加 TiDB Server 节点,提高整体的处理能力,提供更高的吞吐。TiKV 负责存储数据,随着数据量的增长,可以部署更多的 TiKV Server 节点解决数据 Scale 的问题。PD 会在 TiKV0 码力 | 444 页 | 4.89 MB | 6 月前3
分布式NewSQL数据库TiDB对数据⼀致性及⾼可靠、系统⾼可⽤、可扩展性、容灾要求较⾼的⾦融⾏业属性的场景 对存储容量、可扩展性、并发要求较⾼的海量数据及⾼并发的 OLTP 场景 Real-time HTAP 场景 数据汇聚、⼆次加⼯处理的场景 真正⾦融级⾼可⽤ UCloud 云上 云上 TiDB 架构⽰意图 架构⽰意图 TiDB TiDB Serverless ⽬录 分布式NewSQL数据库 TiDB Copyright © 2012-2021 UCloud 优刻得 5/120 85 86 86 88 93 93 95 96 99 100 100 101 103 103 104 105 105 105 105 105 参数列表 告警通知 告警通知 创建告警模板 绑定资源 SSL 证书管理 证书管理 进⼊管理⻚⾯ 添加 SSL 证书 证书格式 开启 SSL 配置 关闭 SSL 配置 删除 SSL 证书 查看证书详情 安全组 安全组 查看安全组 cluster_slow_query表中⽆法查询到? Q19: 如何处理 TiCDC 创建同步任务或同步到 MySQL 时遇到 Error 1298: Unknown or incorrect time zone: 'UTC' 错误? Q20: TiDB数据库报错 ERROR 1105 (HY000): Out Of Memory Quota处理⽅法 ⽬录 分布式NewSQL数据库 TiDB Copyright0 码力 | 120 页 | 7.42 MB | 6 月前3
23-云原生观察性、自动化交付和 IaC 等之道-高磊主动性 被动性 监控 可观察 健康检查 告警 指标 日志 追踪 问题和根因 预警 监控&稳定性 分析&追踪&排错&探索 • 从稳定性目标出发,首先需要有提示应用出问题的手段 • 当提示出现问题后,就需要有定位问题位置的手段,进 一步要有能够指出问题根因、甚至提前就预警的手段。 拓扑流量图:是不是按预期运行 分布式跟踪:哪些调用 故障或者拖慢了系统 监控与告警: 主动告诉我 问题发生了! 微服务部署后就像个黑盒子,如何发现问题并在 发人员可以清晰的观测到整体分布式应用的详细运 行情况,为高精度运维提供可视化支撑 人工发展阶段:符合人分析问题的习惯 宏观->微观 精细化发展阶段:依靠数据赋能,加强可视化能力,进一步简化运维 监控告警 分布式跟踪链 日志查询 根因分析 响应动作 自动化 高端观察性 各维度统计分析 观察性 Prometheus Skywalking EFK Hadoop Spark Cortex 背后的原因在于特定环境依赖或者运维规范问题渗透到了PaaS本身, 或者大家常说的定制化场景,如果不进行解耦就会有长期存在的矛盾。 • 为了应付定制化,客户需要等待平台研发的排期,因为平台研发需要定制 化处理定制化场景下的软件、运维工具或者规范等等,并需要不断的测试。 • 为了应付各类的环境的问题,势必要求交付人员的能力非常强,也是成本 居高不下的原因之一。 在K8s这种环境中,存在两种定制化的手段:其一是Deployment0 码力 | 24 页 | 5.96 MB | 6 月前3
25-云原生应用可观测性实践-向阳10W采集器 20+云平台 采集器 1% CPU 0.01% 带宽开销 ︹ 零 侵 入 ︺ 流 量 采 集 云平台API 容器编排API TKE ACK 知识图谱 变更事件 资源信息 全 景 图 基于应用代码和日志的可观测性 企业混合云 100x ES/InfluxDB性能 1000+台跨Region集群 simplify the growing complexity 10W采集器 20+云平台 采集器 1% CPU 0.01% 带宽开销 ︹ 零 侵 入 ︺ 流 量 采 集 云平台API 容器编排API TKE ACK 知识图谱 变更事件 资源信息 全 景 图 基于应用代码和日志的可观测性 企业混合云 100x ES/InfluxDB性能 1000+台跨Region集群 原力 “不可变基础设施” 服务 simplify the growing SegmentID、URL 关联键值: Pod、Node、 Service、VPC、 VM Metric WEBHOOK DataSource Plugin Tracing Logging 告警 面向各部门视图 与Grafana、Skywalking结合 simplify the growing complexity © 2021, YUNSHAN Networks Technology0 码力 | 39 页 | 8.44 MB | 6 月前3
Service Mesh的实践分享Daemonset(云) Cluster(HTTP) 接入难度 容易。打入依赖包即可 容易。需依赖SDK 容易。需依赖SDK 编码难度 容易。IDL接口规范 容易。IDL接口规范 难。需要自行处理HTTP请求和 响应(目前还没有生成HTTP sdk) 应用侵入性 侵入性大。复杂客户端会给 应用造成负担,包括资源占 用、依赖冲突等等 侵入性小。SDK只有简单的寻址和序列化/ 反序列化的功能 proxy,若仍然超限会再被切走 • 默认单IP限流值是2w qps今年计划(Roadmap) 我是作者名称Roadmap • 智能参数治理 • 实时反馈 • 历史指标 • OSP智能故障分析&告警 • 基于内部的智能根因分析大框架 • 全链路服务综合治理 • 实时上下游超时治理 • 实时上下游限流治理 • 智能路由 • 开源智能参数治理 • 现状 • 依赖用户手工配置参数(超时时间、限流) config center 应用指标 上报 应用指标 上报 配置建议 配置下发 宿主机 用户 配置治理参数智能故障分析&告警 • 现状 • 告警信息分散,需要人工进行更多的数 据收集和整合才能定位问题,效率低下 • 告警信息偏原始,缺乏对告警信息进行 进一步推导得到具体的措施 • 目标 • 基于内部的智能根因分析大框架,通过 智能中心整合机器内、集群间、调用链 上的指标,对信息进行整合和推导,得0 码力 | 30 页 | 4.80 MB | 6 月前3
共 144 条
- 1
- 2
- 3
- 4
- 5
- 6
- 15













