 微服务容灾治理微服务容灾治理 1. go-zero稳定性能⼒概览 经过这么多年⼤流量服务端架构设计的沉淀,go-zero在保护服务的稳定性上下⾜了功夫,不管是 CPU密集型还是IO密集型服务,go-zero都能很好的保护服务在如下场景不被拖垮或卡死: • 远超服务容量的突发⼤流量 • CPU打满 • 上下游故障或者超时 • MySQL、MongoDB、Redis等中间件故0 码力 | 13 页 | 1.68 MB | 1 年前3 微服务容灾治理微服务容灾治理 1. go-zero稳定性能⼒概览 经过这么多年⼤流量服务端架构设计的沉淀,go-zero在保护服务的稳定性上下⾜了功夫,不管是 CPU密集型还是IO密集型服务,go-zero都能很好的保护服务在如下场景不被拖垮或卡死: • 远超服务容量的突发⼤流量 • CPU打满 • 上下游故障或者超时 • MySQL、MongoDB、Redis等中间件故0 码力 | 13 页 | 1.68 MB | 1 年前3
 分布式异地多活架构实践之路讯飞输入法异地多活架构实践之路 凌 军 自我介绍 • 凌军 • 2010年加入科大讯飞 • 讯飞输入法、灵犀语音助手等产品服务端架构负责人 • 科大讯飞消费者BG基础平台架构负责人 产品介绍 • 稳居国内输入法第一阵营 • 2010-10~至今 • 4亿用户 • 1.1亿月活 来自:中国科学院《互联网周刊》 大纲 • 产品发展中遇到的问题 • 异地多活存在哪些挑战 • • 讯飞输入法异地多活解决方案 • 实际应用效果 • 未来规划 单机房遇到的问题 可用性低 响应时间慢 系统扩容难 可用性低 响应时间慢 系统扩容难 大纲 • 产品发展中遇到的问题 • 异地多活存在哪些技术挑战 • 讯飞输入法解决方案 • 实际应用效果 • 后续规划 技术挑战 几十毫秒的延迟; 跨机房性能较慢 机房天然延迟 专线费用高; 专线不稳定 跨机房专线问题 需要封装屏蔽细节 业务开发影响 如何精准调度; 如何合理调度 流量调度 存储系统自带同步 不成熟; 自研组件之间同步 数据同步 大纲 • 产品发展中遇到的问题 • 异地多活存在哪些技术挑战 • 讯飞输入法异地多活解决方案 • 实际应用效果 • 未来规划 业务特点分析 业务分类 业务举例 业务特点 场景归类 核心业务 皮肤、表情、资源、广告、应用墙译等 读多写少 主从模式0 码力 | 36 页 | 1.66 MB | 1 年前3 分布式异地多活架构实践之路讯飞输入法异地多活架构实践之路 凌 军 自我介绍 • 凌军 • 2010年加入科大讯飞 • 讯飞输入法、灵犀语音助手等产品服务端架构负责人 • 科大讯飞消费者BG基础平台架构负责人 产品介绍 • 稳居国内输入法第一阵营 • 2010-10~至今 • 4亿用户 • 1.1亿月活 来自:中国科学院《互联网周刊》 大纲 • 产品发展中遇到的问题 • 异地多活存在哪些挑战 • • 讯飞输入法异地多活解决方案 • 实际应用效果 • 未来规划 单机房遇到的问题 可用性低 响应时间慢 系统扩容难 可用性低 响应时间慢 系统扩容难 大纲 • 产品发展中遇到的问题 • 异地多活存在哪些技术挑战 • 讯飞输入法解决方案 • 实际应用效果 • 后续规划 技术挑战 几十毫秒的延迟; 跨机房性能较慢 机房天然延迟 专线费用高; 专线不稳定 跨机房专线问题 需要封装屏蔽细节 业务开发影响 如何精准调度; 如何合理调度 流量调度 存储系统自带同步 不成熟; 自研组件之间同步 数据同步 大纲 • 产品发展中遇到的问题 • 异地多活存在哪些技术挑战 • 讯飞输入法异地多活解决方案 • 实际应用效果 • 未来规划 业务特点分析 业务分类 业务举例 业务特点 场景归类 核心业务 皮肤、表情、资源、广告、应用墙译等 读多写少 主从模式0 码力 | 36 页 | 1.66 MB | 1 年前3
 分布式 KV 存储系统 Cellar 演进之路年任职于百度,负责分布式文件系统和 KV 存储系统研发 有多年分布式存储研发经验 个人简介 • Cellar起源 • 中心节点架构演进 • 节点高可用和异地容灾 • 服务可用性提升 • Cellar规划 目录 • Cellar起源 • 中心节点架构演进 • 节点高可用和异地容灾 • 服务可用性提升 • Cellar规划 目录 Cellar,英文原意是酒窖,项目取名Cellar,一方面借用其储藏 之意,同时 Cellar起源—Tair问题 Cellar起源 架构升级 性能优化 可用性优 化 可运维性 Cellar 开源 Tair • Cellar起源 • 中心节点架构演进 • 节点高可用和异地容灾 • 服务可用性提升 • Cellar规划 目录 Cellar—中心节点架构演进 • 性能问题 客户端集中获取路由表 • 隔离性问题 中心节点暴露给客户端 单独的路由表获取模块 Cellar—中心节点架构演进 中心节点架构演进 • 节点高可用和异地容灾 • 服务可用性提升 • Cellar规划 目录 存储节点Failover,越快越好? • 数据补全对业务影响 • 机器宕机五分钟,数据补全两小时 节点升级,先切走流量再操作? • 节点流量只能切到有其他副本的节点 • 升级后的节点缺少升级期间的写入 Cellar—节点高可用 Cellar—节点高可用 • 秒级容灾 无数据迁移 • 节点静默升级0 码力 | 34 页 | 1.66 MB | 1 年前3 分布式 KV 存储系统 Cellar 演进之路年任职于百度,负责分布式文件系统和 KV 存储系统研发 有多年分布式存储研发经验 个人简介 • Cellar起源 • 中心节点架构演进 • 节点高可用和异地容灾 • 服务可用性提升 • Cellar规划 目录 • Cellar起源 • 中心节点架构演进 • 节点高可用和异地容灾 • 服务可用性提升 • Cellar规划 目录 Cellar,英文原意是酒窖,项目取名Cellar,一方面借用其储藏 之意,同时 Cellar起源—Tair问题 Cellar起源 架构升级 性能优化 可用性优 化 可运维性 Cellar 开源 Tair • Cellar起源 • 中心节点架构演进 • 节点高可用和异地容灾 • 服务可用性提升 • Cellar规划 目录 Cellar—中心节点架构演进 • 性能问题 客户端集中获取路由表 • 隔离性问题 中心节点暴露给客户端 单独的路由表获取模块 Cellar—中心节点架构演进 中心节点架构演进 • 节点高可用和异地容灾 • 服务可用性提升 • Cellar规划 目录 存储节点Failover,越快越好? • 数据补全对业务影响 • 机器宕机五分钟,数据补全两小时 节点升级,先切走流量再操作? • 节点流量只能切到有其他副本的节点 • 升级后的节点缺少升级期间的写入 Cellar—节点高可用 Cellar—节点高可用 • 秒级容灾 无数据迁移 • 节点静默升级0 码力 | 34 页 | 1.66 MB | 1 年前3
 Nacos架构&原理
观测性等分布式系统指标影 响整个分布式系统的运行。历史上,这个系统在阿里也触发过大故障,经历过数次血与火的考验。 在阿里数次架构升级中,Nacos 都做了大量的功能迭代,用来支持阿里的异地多活,容灾演练,容 器化,Serverless 化。Nacos 经过阿里内部锤炼十年以上,各项指标已经及其先进,稳定,为服务 好全球开发者,Nacos 经过数十名工程师持续努力,以开源形式和大家见面,相信 间高效通信问题。  容量管理:管理每个租户,分组下的容量,防止存储被写爆,影响服务可用性。  流量管理:按照租户,分组等多个维度对请求频率,长链接个数,报文大小,请求流控进行控制。  缓存机制:容灾目录,本地缓存,Server 缓存机制,是 Nacos 高可用的关键。  启动模式:按照单机模式,配置模式,服务模式,DNS 模式模式,启动不同的模块。  ⼀致性协议:解决不同数据,不同⼀致性要求情况下,不同⼀致性要求,是 配置快照(Configuration Snapshot) Nacos 的客户端 SDK 会在本地生成配置的快照。当客户端无法连接到 Nacos Server 时,可以使 用配置快照显示系统的整体容灾能力。配置快照类似于 Git 中的本地 commit,也类似于缓存,会 在适当的时机更新,但是并没有缓存过期(expiration)的概念。 Nacos 配置模型 基础模型 上图是 Nacos0 码力 | 326 页 | 12.83 MB | 9 月前3 Nacos架构&原理
观测性等分布式系统指标影 响整个分布式系统的运行。历史上,这个系统在阿里也触发过大故障,经历过数次血与火的考验。 在阿里数次架构升级中,Nacos 都做了大量的功能迭代,用来支持阿里的异地多活,容灾演练,容 器化,Serverless 化。Nacos 经过阿里内部锤炼十年以上,各项指标已经及其先进,稳定,为服务 好全球开发者,Nacos 经过数十名工程师持续努力,以开源形式和大家见面,相信 间高效通信问题。  容量管理:管理每个租户,分组下的容量,防止存储被写爆,影响服务可用性。  流量管理:按照租户,分组等多个维度对请求频率,长链接个数,报文大小,请求流控进行控制。  缓存机制:容灾目录,本地缓存,Server 缓存机制,是 Nacos 高可用的关键。  启动模式:按照单机模式,配置模式,服务模式,DNS 模式模式,启动不同的模块。  ⼀致性协议:解决不同数据,不同⼀致性要求情况下,不同⼀致性要求,是 配置快照(Configuration Snapshot) Nacos 的客户端 SDK 会在本地生成配置的快照。当客户端无法连接到 Nacos Server 时,可以使 用配置快照显示系统的整体容灾能力。配置快照类似于 Git 中的本地 commit,也类似于缓存,会 在适当的时机更新,但是并没有缓存过期(expiration)的概念。 Nacos 配置模型 基础模型 上图是 Nacos0 码力 | 326 页 | 12.83 MB | 9 月前3
 美团点评2018技术年货大众点评账号业务高可用进阶之路 123 ...................................................................... 美团容器平台架构及容器技术实践 135 ...................................................................... 美团即时物流的分布式系统架构设计 行变更,然后通过代码上线进行发布。整体流程如下: 这种上线机制存在以下几个问题: 1. 配置上线过多依赖于代码的发布。 2. 整体上线过程无审核机制,无法对配置资源进行合规审核。 3. 配置容易出错,上线前不能提前预览上线后的效果,只有“事后”(上线后)才能验证效果。 APPKIT打造稳定、灵活、高效的运营配置平台 - 美团技术团队 三、我们的思考 三、我们的思考 针对以上问题,我们 Content里的有哪些字段(标题、副标题、图片、跳转链接),这些都是JSON化的存储格式,可以满足 任意字段的扩展。 5.4 模型的应用与小结 5.4 模型的应用与小结 通过以上经典实例,我们可以很容易通过我们的数据模型解决这个问题。我们再回到文章最开头的背景章 节的运营场景,Banner位,如下: APPKIT打造稳定、灵活、高效的运营配置平台 - 美团技术团队 这种Banner位,套用我0 码力 | 229 页 | 61.61 MB | 1 年前3 美团点评2018技术年货大众点评账号业务高可用进阶之路 123 ...................................................................... 美团容器平台架构及容器技术实践 135 ...................................................................... 美团即时物流的分布式系统架构设计 行变更,然后通过代码上线进行发布。整体流程如下: 这种上线机制存在以下几个问题: 1. 配置上线过多依赖于代码的发布。 2. 整体上线过程无审核机制,无法对配置资源进行合规审核。 3. 配置容易出错,上线前不能提前预览上线后的效果,只有“事后”(上线后)才能验证效果。 APPKIT打造稳定、灵活、高效的运营配置平台 - 美团技术团队 三、我们的思考 三、我们的思考 针对以上问题,我们 Content里的有哪些字段(标题、副标题、图片、跳转链接),这些都是JSON化的存储格式,可以满足 任意字段的扩展。 5.4 模型的应用与小结 5.4 模型的应用与小结 通过以上经典实例,我们可以很容易通过我们的数据模型解决这个问题。我们再回到文章最开头的背景章 节的运营场景,Banner位,如下: APPKIT打造稳定、灵活、高效的运营配置平台 - 美团技术团队 这种Banner位,套用我0 码力 | 229 页 | 61.61 MB | 1 年前3
 基于open-falcon的平安云监控graph judge redis sender query mysql web alarm gitlab 问题&目标 Ø 问题 Ø 没有异地容灾 Ø 跨区域上报数据,会产生大量专线流量 Ø 隔离性不好 Ø 目标 Ø 异地容灾、高可用 Ø 节省专线带宽 Ø 支持三级网络架构 Ø 支持按照租户进行隔离 Ø 运维入口统一 argus的架构 可用区 云管区(主备) 公共服务区 策略 配置数据模型 租户 租户 主机 主机 主机组 主机组 模板 模板 父模板 父模板 联系人 联系人 策略 策略 策略 策略 策略 策略 租户隔离 解读argus的架构 Ø 异地容灾,高可用 Ø 所有模块可横向扩展 Ø 性能数据分三地存储,节省大量专线带宽 Ø 运维入口唯一,用户友好 Ø 兼顾了通用、个性化的监控需求 Ø 做到租户隔离 目录 Ø 团队介绍 Ø 背景0 码力 | 30 页 | 10.40 MB | 1 年前3 基于open-falcon的平安云监控graph judge redis sender query mysql web alarm gitlab 问题&目标 Ø 问题 Ø 没有异地容灾 Ø 跨区域上报数据,会产生大量专线流量 Ø 隔离性不好 Ø 目标 Ø 异地容灾、高可用 Ø 节省专线带宽 Ø 支持三级网络架构 Ø 支持按照租户进行隔离 Ø 运维入口统一 argus的架构 可用区 云管区(主备) 公共服务区 策略 配置数据模型 租户 租户 主机 主机 主机组 主机组 模板 模板 父模板 父模板 联系人 联系人 策略 策略 策略 策略 策略 策略 租户隔离 解读argus的架构 Ø 异地容灾,高可用 Ø 所有模块可横向扩展 Ø 性能数据分三地存储,节省大量专线带宽 Ø 运维入口唯一,用户友好 Ø 兼顾了通用、个性化的监控需求 Ø 做到租户隔离 目录 Ø 团队介绍 Ø 背景0 码力 | 30 页 | 10.40 MB | 1 年前3
 可发布版-美团点评微服务OCTO-曹继光和开源方向进展 % & 3 ( ) 6 白银 Ø 标准化水平良好 黄金 钻石 Ø 服务保障能力强 Ø 胜p%千万订单量级b务 星耀 Ø 跨地区容灾和扩展能力 Ø 数千万订单量级b务强需 求 青铜 Ø 基础能力达标 铂金 Ø 性能一流 Ø 足n支撑数百万订单量级b务 Ø 易用性q秀 服务治理演进各c阶段 ��! 5.�� ��� ��! 6.�� ���! 1.�� ��! 链路级流量隔离 • 全链路灰度发布 • 全链路压测 • 全链路故障演练 服务治理实践(6)-星耀段t+ 异地容灾 扩展 回顾:服务治理系统的三项必备能力 % 标准化 & 易用性 3 高性能 降u服务间协作成本 提高服务开发效率 确保框架性能不是瓶颈 • 服务治理系统OCTO演进及架构设计0 码力 | 35 页 | 14.10 MB | 1 年前3 可发布版-美团点评微服务OCTO-曹继光和开源方向进展 % & 3 ( ) 6 白银 Ø 标准化水平良好 黄金 钻石 Ø 服务保障能力强 Ø 胜p%千万订单量级b务 星耀 Ø 跨地区容灾和扩展能力 Ø 数千万订单量级b务强需 求 青铜 Ø 基础能力达标 铂金 Ø 性能一流 Ø 足n支撑数百万订单量级b务 Ø 易用性q秀 服务治理演进各c阶段 ��! 5.�� ��� ��! 6.�� ���! 1.�� ��! 链路级流量隔离 • 全链路灰度发布 • 全链路压测 • 全链路故障演练 服务治理实践(6)-星耀段t+ 异地容灾 扩展 回顾:服务治理系统的三项必备能力 % 标准化 & 易用性 3 高性能 降u服务间协作成本 提高服务开发效率 确保框架性能不是瓶颈 • 服务治理系统OCTO演进及架构设计0 码力 | 35 页 | 14.10 MB | 1 年前3
 基于 Rust Arrow Flight 的物联网和时序数据传输及转换工具 霍琳贺云服务版 核心功能开源 • SQL 支持 • 无模式写入 • 缓存 • 流计算 • 数据订阅 • 集群、高可用 高可靠、线性扩展 + 专业技术服务 • 边云数据复制 • 跨云 / 异地数据复制 • 增量备份 • 多级存储 • 工业数据接入 全托管时序数据 管理云服务平台 • 全托管服务 • VPC 对等连接 • 多云部署( AWS/Azure/ GCP) CONTENTS 05 2023.09 Usability Functionality taosX - 集群运维 • 数据库复制 • 全量 / 增量备份 • 数据导入 / 导出 • 数据库迁移 • 异地容灾 taosX - 数据接入 Comming Soon taosX - 流式处理 taosX - Transformer • Parse {"parse": {"field1": { "cast":0 码力 | 29 页 | 2.26 MB | 1 年前3 基于 Rust Arrow Flight 的物联网和时序数据传输及转换工具 霍琳贺云服务版 核心功能开源 • SQL 支持 • 无模式写入 • 缓存 • 流计算 • 数据订阅 • 集群、高可用 高可靠、线性扩展 + 专业技术服务 • 边云数据复制 • 跨云 / 异地数据复制 • 增量备份 • 多级存储 • 工业数据接入 全托管时序数据 管理云服务平台 • 全托管服务 • VPC 对等连接 • 多云部署( AWS/Azure/ GCP) CONTENTS 05 2023.09 Usability Functionality taosX - 集群运维 • 数据库复制 • 全量 / 增量备份 • 数据导入 / 导出 • 数据库迁移 • 异地容灾 taosX - 数据接入 Comming Soon taosX - 流式处理 taosX - Transformer • Parse {"parse": {"field1": { "cast":0 码力 | 29 页 | 2.26 MB | 1 年前3
 2022年美团技术年货 合辑自动化测试在美团外卖的实践与落地 483 深入理解函数式编程(上) 512 深入理解函数式编程(下) 541 Android 对 so 体积优化的探索与实践 568 从 0 到 1:美团端侧 CDN 容灾解决方案 589 美团高性能终端实时日志系统建设实践 608 后端 622 可视化全链路日志追踪 622 设计模式二三事 647 基于代价的慢查询优化建议 670 Java 系列 版本,并新增了中大型网络,对轻量级和小网 络的性能进行了全面升级,进一步提升综合性能,量化效果也得到大幅提升,其中 YOLOv6-S 量化模型达到了 43.3mAP 和 869 FPS (TensorRT 8.4)。更多详细内 容请关注官方出品的技术报告 [7]。 36 > 2022年美团技术年货 表 12 YOLOv6-S V2.0 量化效果 我们希望通过分享本文的实践,进一步推动最新通用目标检测算法的落地。未来,我 Top K MMOE 中 Expert Gate 在不同任务上的分布可视化分析 4. 总结和展望 得益于 Cube 概念,我们可以持续探索更多情境,以及优化该情境下的冷启动问题。 例如用户处于异地时,可以通过比较情景 Cube 的相似性,找到近似情景下有较成熟 行为的用户,并将其兴趣偏好及其行为迁移过来(实现中为每个情景建立一个活跃用 户池),达到缓解冷启动阶段用户体验差的问题。 此外0 码力 | 1356 页 | 45.90 MB | 1 年前3 2022年美团技术年货 合辑自动化测试在美团外卖的实践与落地 483 深入理解函数式编程(上) 512 深入理解函数式编程(下) 541 Android 对 so 体积优化的探索与实践 568 从 0 到 1:美团端侧 CDN 容灾解决方案 589 美团高性能终端实时日志系统建设实践 608 后端 622 可视化全链路日志追踪 622 设计模式二三事 647 基于代价的慢查询优化建议 670 Java 系列 版本,并新增了中大型网络,对轻量级和小网 络的性能进行了全面升级,进一步提升综合性能,量化效果也得到大幅提升,其中 YOLOv6-S 量化模型达到了 43.3mAP 和 869 FPS (TensorRT 8.4)。更多详细内 容请关注官方出品的技术报告 [7]。 36 > 2022年美团技术年货 表 12 YOLOv6-S V2.0 量化效果 我们希望通过分享本文的实践,进一步推动最新通用目标检测算法的落地。未来,我 Top K MMOE 中 Expert Gate 在不同任务上的分布可视化分析 4. 总结和展望 得益于 Cube 概念,我们可以持续探索更多情境,以及优化该情境下的冷启动问题。 例如用户处于异地时,可以通过比较情景 Cube 的相似性,找到近似情景下有较成熟 行为的用户,并将其兴趣偏好及其行为迁移过来(实现中为每个情景建立一个活跃用 户池),达到缓解冷启动阶段用户体验差的问题。 此外0 码力 | 1356 页 | 45.90 MB | 1 年前3
 Golang在接入层长连接服务中的实践-黄欣– Redis集群:codis集群方案 – Mysql集群:中间件方案 架构—灾备 • 这里的灾备主要指的是依赖的存储降级方案,涉及到存储 的主要两个模块 – Auth svr:cache(redis) + db(mysql) – Route svr:cache + cache(standy) 架构—异地双活 • 要求 – 正常情况下: • 任何一个机房可推送到所有机房app –0 码力 | 31 页 | 1.67 MB | 1 年前3 Golang在接入层长连接服务中的实践-黄欣– Redis集群:codis集群方案 – Mysql集群:中间件方案 架构—灾备 • 这里的灾备主要指的是依赖的存储降级方案,涉及到存储 的主要两个模块 – Auth svr:cache(redis) + db(mysql) – Route svr:cache + cache(standy) 架构—异地双活 • 要求 – 正常情况下: • 任何一个机房可推送到所有机房app –0 码力 | 31 页 | 1.67 MB | 1 年前3
共 260 条
- 1
- 2
- 3
- 4
- 5
- 6
- 26














 
 