 降级预案在同程艺龙的工程实践-王俊翔级点,降级是如 何实现的 • 缺乏UI、没有灵活的参数、策略略配置,没有预案制定管理理能⼒力力 业务保障平台建设之路路 业务保障平台建设之路路 服务管理理 策略略管理理 预案制定 线上演练 • 降级服务统⼀一注册管理理,通过降 级服务质量量数据从整体反映各应 ⽤用的降级点和可⽤用性保障措施 • 降级策略略集中管理理,通过参数 化、配置化、脚本化⽅方式实现线 上策略略的灵活调整 上策略略的灵活调整 • 依据服务重要程度,从全局制定 分级预案,对降级点进⾏行行预案编 排,并跟踪监控降级链路路的执⾏行行 • 发现潜在故障,多维度验证预案 有效性,评估系统可靠性,提供 降级策略略、参数调整的优化依据 整体架构 Agent 服务降级注册 降级熔断通知 元数据存储 控制 中⼼心 ETCD ETCD ETCD ETCD 服务注册监听 降级控制中⼼心 元数据 TurboMQ 如何才能持续保障系统的⾼高可⽤用性? 故障演练 • 对预案进⾏行行有效性、合理理性验证 • 通过破坏性测试,发现系统的潜在故障,及时修正,并做好降级预防措施 • 参数修正,及时调整流控、降级策略略,优化告警、超时参数设置 • 模拟线上故障,进⾏行行故障复现,验证故障后续的处理理措施是否⾏行行之有效 • 以战养兵,历练团队,让⼯工程师有更更多机会积累经验,提升应对故障的能⼒力力 常态化的故障演练对系统进⾏行行反复验证0 码力 | 26 页 | 18.67 MB | 1 年前3 降级预案在同程艺龙的工程实践-王俊翔级点,降级是如 何实现的 • 缺乏UI、没有灵活的参数、策略略配置,没有预案制定管理理能⼒力力 业务保障平台建设之路路 业务保障平台建设之路路 服务管理理 策略略管理理 预案制定 线上演练 • 降级服务统⼀一注册管理理,通过降 级服务质量量数据从整体反映各应 ⽤用的降级点和可⽤用性保障措施 • 降级策略略集中管理理,通过参数 化、配置化、脚本化⽅方式实现线 上策略略的灵活调整 上策略略的灵活调整 • 依据服务重要程度,从全局制定 分级预案,对降级点进⾏行行预案编 排,并跟踪监控降级链路路的执⾏行行 • 发现潜在故障,多维度验证预案 有效性,评估系统可靠性,提供 降级策略略、参数调整的优化依据 整体架构 Agent 服务降级注册 降级熔断通知 元数据存储 控制 中⼼心 ETCD ETCD ETCD ETCD 服务注册监听 降级控制中⼼心 元数据 TurboMQ 如何才能持续保障系统的⾼高可⽤用性? 故障演练 • 对预案进⾏行行有效性、合理理性验证 • 通过破坏性测试,发现系统的潜在故障,及时修正,并做好降级预防措施 • 参数修正,及时调整流控、降级策略略,优化告警、超时参数设置 • 模拟线上故障,进⾏行行故障复现,验证故障后续的处理理措施是否⾏行行之有效 • 以战养兵,历练团队,让⼯工程师有更更多机会积累经验,提升应对故障的能⼒力力 常态化的故障演练对系统进⾏行行反复验证0 码力 | 26 页 | 18.67 MB | 1 年前3
 微服务和Service Mesh 在多个行业落地实践流量 镜像 维护 开关 API 监控 认证 鉴权 治理 文档 报表 微服务框架 (服务治理) 服务 目录 注册 发现 限流 熔断 降级 容错 路由 负载 均衡 参数 分流 拓扑 依赖 配置 中心 服务 监控 服务 告警 认证 鉴权 统计 概览 知识 库 APM (应用运行期监控) 运行时 拓扑 性能 监控 服务 筛选 开发测试环境自动部署,生产 环境手动触发 持续集成 www.163yun.com 微服务框架 (服务治理) 服务 目录 注册 发现 限流 熔断 降级 容错 路由 负载 均衡 参数 分流 拓扑 依赖 配置 中心 服务 监控 服务 告警 认证 鉴权 统计 概览 知识 库 服务 告警 监控 大屏 账户 审计 注册,发现,调用都提供鉴权 熔断 降级 容错 路由 负载 均衡 参数 分流 拓扑 依赖 配置 中心 服务 监控 服务 告警 认证 鉴权 统计 概览 知识 库 服务 告警 监控 大屏 账户 审计 粒度更细:可指定服务版本,类,方法级别 配置灵活:可配置检测粒度为每M毫秒N个请求P%的错误率 指标多样:RT值,错误率,线程池参数 熔断 粒度更细:可指定调用者和被调用0 码力 | 39 页 | 3.06 MB | 1 年前3 微服务和Service Mesh 在多个行业落地实践流量 镜像 维护 开关 API 监控 认证 鉴权 治理 文档 报表 微服务框架 (服务治理) 服务 目录 注册 发现 限流 熔断 降级 容错 路由 负载 均衡 参数 分流 拓扑 依赖 配置 中心 服务 监控 服务 告警 认证 鉴权 统计 概览 知识 库 APM (应用运行期监控) 运行时 拓扑 性能 监控 服务 筛选 开发测试环境自动部署,生产 环境手动触发 持续集成 www.163yun.com 微服务框架 (服务治理) 服务 目录 注册 发现 限流 熔断 降级 容错 路由 负载 均衡 参数 分流 拓扑 依赖 配置 中心 服务 监控 服务 告警 认证 鉴权 统计 概览 知识 库 服务 告警 监控 大屏 账户 审计 注册,发现,调用都提供鉴权 熔断 降级 容错 路由 负载 均衡 参数 分流 拓扑 依赖 配置 中心 服务 监控 服务 告警 认证 鉴权 统计 概览 知识 库 服务 告警 监控 大屏 账户 审计 粒度更细:可指定服务版本,类,方法级别 配置灵活:可配置检测粒度为每M毫秒N个请求P%的错误率 指标多样:RT值,错误率,线程池参数 熔断 粒度更细:可指定调用者和被调用0 码力 | 39 页 | 3.06 MB | 1 年前3
 付钱拉金融云系统架构演进和最佳实践设计可容错的系统(快速失败、超时、自动重路由) 设计具备自我保护的系统(拆分、限制、优雅停止) 制定合适的开发规范 撒网 实时监控(傻瓜式、开发不用查日志) 可视化运营 网络监控 主机监控 服务监控 业务监控 中间件、接口探测、日志抓取 状态类(响应码、交易状态、退款状态、商户状态) 耗时类(交易总时长、分段时长、SQL耗时、代码耗时) 统计类(订单量异常预警、非法IP预警、交易额过大) 网络异常(单通道和多通道、不同的分布场景) 和第三方接口交互,需要考虑是否需要通过代理出网 5.和第三方接口交互,需要考虑是否要相互添加白名单 6.和第三方接口交互,需要考虑设置合适的work线程符合第三方并发数量限制 二 安全规范 1.页面请求参数严格限制或者校验处理,防止SQL注入 2.页面URL请求做细粒度的权限拦截,防止访问权限过大 3.部署在公网的应用做好防止XSS攻击的防范措施 4.和第三方系统交互需要互加白名单确保安全 5 金风险,建议使用redis避免 定时器浪打浪情况下,启动多个定时器即默认启动多个线程,影响系统性能 定时器浪打浪情况下,如果定时任务处理过慢会导致内存耗尽 12.避免系统中出现单点故障,包括中间件和应用程序等所有的节点 13.能异步处理的别同步处理,异步可以释放线程资源,避免阻塞,提高响应效率 14.随着业务量的增加,考虑功能拆分和数据库表拆分,除此支付系统建议按照通道 拆分,不同的通0 码力 | 35 页 | 6.05 MB | 1 年前3 付钱拉金融云系统架构演进和最佳实践设计可容错的系统(快速失败、超时、自动重路由) 设计具备自我保护的系统(拆分、限制、优雅停止) 制定合适的开发规范 撒网 实时监控(傻瓜式、开发不用查日志) 可视化运营 网络监控 主机监控 服务监控 业务监控 中间件、接口探测、日志抓取 状态类(响应码、交易状态、退款状态、商户状态) 耗时类(交易总时长、分段时长、SQL耗时、代码耗时) 统计类(订单量异常预警、非法IP预警、交易额过大) 网络异常(单通道和多通道、不同的分布场景) 和第三方接口交互,需要考虑是否需要通过代理出网 5.和第三方接口交互,需要考虑是否要相互添加白名单 6.和第三方接口交互,需要考虑设置合适的work线程符合第三方并发数量限制 二 安全规范 1.页面请求参数严格限制或者校验处理,防止SQL注入 2.页面URL请求做细粒度的权限拦截,防止访问权限过大 3.部署在公网的应用做好防止XSS攻击的防范措施 4.和第三方系统交互需要互加白名单确保安全 5 金风险,建议使用redis避免 定时器浪打浪情况下,启动多个定时器即默认启动多个线程,影响系统性能 定时器浪打浪情况下,如果定时任务处理过慢会导致内存耗尽 12.避免系统中出现单点故障,包括中间件和应用程序等所有的节点 13.能异步处理的别同步处理,异步可以释放线程资源,避免阻塞,提高响应效率 14.随着业务量的增加,考虑功能拆分和数据库表拆分,除此支付系统建议按照通道 拆分,不同的通0 码力 | 35 页 | 6.05 MB | 1 年前3
 高可用分布式流数据存储设计-李玥⾼高可⽤用分布式流数据存储设计 李玥 京东集团 技术架构部 架构师 ⾃自我介绍 ⾃自我介绍 李李玥 京东集团 技术架构部 架构师 负责主导设计新⼀一代京东消息中间件系统,专注于流数据的⼀一致性分发和可靠存储、分布式实时计算和⾼高可⽤用分 布式系统架构等技术领域。 从事互联⽹网研发、架构10余年年,曾在浪潮集团、当当⽹网等公司从事架构相关⼯工作。2017年年加⼊入京东,期间提升京 an understandable consensus algorithm” Raft⼀一致性算法 2014 线性 任⼀一时刻⾄至多只有⼀一个请求在执⾏行行 幂等 使⽤用相同参数重复执⾏行行,能获得相同结果 复制状态机 Replication 0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 8 lastApplied lastApplied lastApplied commitIndex Leader Follower commitIndex matchIndex nextIndex 9 AppendEntries RPC 参数 描述 term 领导⼈人的任期号 leaderId 领导⼈人的 id,为了了其他服务器器能重定向到客户端 prevLogIndex 最新⽇日志之前的⽇日志的索引值 prevLogTerm 最新⽇日志之前的⽇日志的领导⼈人任期号0 码力 | 36 页 | 6.02 MB | 1 年前3 高可用分布式流数据存储设计-李玥⾼高可⽤用分布式流数据存储设计 李玥 京东集团 技术架构部 架构师 ⾃自我介绍 ⾃自我介绍 李李玥 京东集团 技术架构部 架构师 负责主导设计新⼀一代京东消息中间件系统,专注于流数据的⼀一致性分发和可靠存储、分布式实时计算和⾼高可⽤用分 布式系统架构等技术领域。 从事互联⽹网研发、架构10余年年,曾在浪潮集团、当当⽹网等公司从事架构相关⼯工作。2017年年加⼊入京东,期间提升京 an understandable consensus algorithm” Raft⼀一致性算法 2014 线性 任⼀一时刻⾄至多只有⼀一个请求在执⾏行行 幂等 使⽤用相同参数重复执⾏行行,能获得相同结果 复制状态机 Replication 0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 8 lastApplied lastApplied lastApplied commitIndex Leader Follower commitIndex matchIndex nextIndex 9 AppendEntries RPC 参数 描述 term 领导⼈人的任期号 leaderId 领导⼈人的 id,为了了其他服务器器能重定向到客户端 prevLogIndex 最新⽇日志之前的⽇日志的索引值 prevLogTerm 最新⽇日志之前的⽇日志的领导⼈人任期号0 码力 | 36 页 | 6.02 MB | 1 年前3
 领域驱动设计&中台/淘宝应用架构升级——反应式架构的探索与实践���App AliRxObjC Sentinel �� RxJava / RxSwift / … ����� ���� + ���� RxJava 升级事项: • 编程框架 • 中间件 • 业务 编程框架选型 Rx* (RxJava/RxJS/RxSwift) Project Reactor Akka Stream 特点 * 出现早(7年年前)、已发布 V2 * 业务框架不不会锁定 :有 Reactive Streams 规范 / 不不同业务框架可互通 后期业务框架切换成本不不⾼高 : 不不同业务框架之间互相模仿 / 使⽤用和概念上差别不不 ⼤大 中间件升级 1. 服务框架(RPC) 流式⽀支持会在 开源的 Dubbo3 放出 2. (移动)⽹网关(Geatway) * 先使⽤用适配 接⼝口不不变、分段实施、不不返回 Masters ��� �� �� 解决⽅方案⽀支持 — 执⾏行行治理理(2018双11) •线程模型(执⾏行行治理理):业务应⽤用 极简⾼高效 的线程模型,统⼀一线程池 • RPC、缓存等中间件 线程池设置⼊入⼝口,由应⽤用架构统⼀一管控 • 整个应⽤用 CPU数个业务线程 • 涉及线程池:EventLoop / Provider / Consumer / 阻塞操作 的线程池 • 进⼀一步提升性能0 码力 | 27 页 | 1.13 MB | 1 年前3 领域驱动设计&中台/淘宝应用架构升级——反应式架构的探索与实践���App AliRxObjC Sentinel �� RxJava / RxSwift / … ����� ���� + ���� RxJava 升级事项: • 编程框架 • 中间件 • 业务 编程框架选型 Rx* (RxJava/RxJS/RxSwift) Project Reactor Akka Stream 特点 * 出现早(7年年前)、已发布 V2 * 业务框架不不会锁定 :有 Reactive Streams 规范 / 不不同业务框架可互通 后期业务框架切换成本不不⾼高 : 不不同业务框架之间互相模仿 / 使⽤用和概念上差别不不 ⼤大 中间件升级 1. 服务框架(RPC) 流式⽀支持会在 开源的 Dubbo3 放出 2. (移动)⽹网关(Geatway) * 先使⽤用适配 接⼝口不不变、分段实施、不不返回 Masters ��� �� �� 解决⽅方案⽀支持 — 执⾏行行治理理(2018双11) •线程模型(执⾏行行治理理):业务应⽤用 极简⾼高效 的线程模型,统⼀一线程池 • RPC、缓存等中间件 线程池设置⼊入⼝口,由应⽤用架构统⼀一管控 • 整个应⽤用 CPU数个业务线程 • 涉及线程池:EventLoop / Provider / Consumer / 阻塞操作 的线程池 • 进⼀一步提升性能0 码力 | 27 页 | 1.13 MB | 1 年前3
 陈辉-架构师的业务思维用什么系统去承载?需要什么框 架吗? 换个问法 今年我们要落地业务中台架构 用户基础服务 交易服务 商品服务 关系服务 广告服务 业务域A 业务域B 业务域C 业务域D 业务组件/中间件 电商业务 内容业务 直播业务 算法支撑 中间件 计算框架 平台工具 云的能力 什么是架构师的业务思维? 站在业务方的视角,在理解业务发展目标、看清业务发展方向的前提下,做出技术和业务的平衡 站在业务方的视角,在0 码力 | 32 页 | 3.18 MB | 1 年前3 陈辉-架构师的业务思维用什么系统去承载?需要什么框 架吗? 换个问法 今年我们要落地业务中台架构 用户基础服务 交易服务 商品服务 关系服务 广告服务 业务域A 业务域B 业务域C 业务域D 业务组件/中间件 电商业务 内容业务 直播业务 算法支撑 中间件 计算框架 平台工具 云的能力 什么是架构师的业务思维? 站在业务方的视角,在理解业务发展目标、看清业务发展方向的前提下,做出技术和业务的平衡 站在业务方的视角,在0 码力 | 32 页 | 3.18 MB | 1 年前3
 QCon北京2018-业务高速发展下的互联网金融系统架构演变-张现双+多IDC,区域容灾,多ISP 集群,高可用,分片 本地缓存,防刷,流控 终端 域名 机房 LB / NG.. 网关 Cache 服务 抓大不能放小[细节决定成败] 线程阻塞>300 中间件内存管理、线程状态,连接状况 db的io,慢sql,索引,join等 代码review,数据结构,日志 GC TCP连接 第四部分 关于监控 如果没有监控… 盲 人 骑 } zabbix,datagod, prometheus… apm工具,商业产品 期望更轻量、无侵入性的业务监控 cat,elk,zipkin等 趋于个性 具有共性 中间件/缓存/数据库/代理/MQ... OS/网络/存储/防火墙... 应用/框架/业务逻辑/系统间调用 自研日志监控[轻量无侵入] Kafka Kafka Spout 策略 Cache0 码力 | 42 页 | 19.96 MB | 1 年前3 QCon北京2018-业务高速发展下的互联网金融系统架构演变-张现双+多IDC,区域容灾,多ISP 集群,高可用,分片 本地缓存,防刷,流控 终端 域名 机房 LB / NG.. 网关 Cache 服务 抓大不能放小[细节决定成败] 线程阻塞>300 中间件内存管理、线程状态,连接状况 db的io,慢sql,索引,join等 代码review,数据结构,日志 GC TCP连接 第四部分 关于监控 如果没有监控… 盲 人 骑 } zabbix,datagod, prometheus… apm工具,商业产品 期望更轻量、无侵入性的业务监控 cat,elk,zipkin等 趋于个性 具有共性 中间件/缓存/数据库/代理/MQ... OS/网络/存储/防火墙... 应用/框架/业务逻辑/系统间调用 自研日志监控[轻量无侵入] Kafka Kafka Spout 策略 Cache0 码力 | 42 页 | 19.96 MB | 1 年前3
 声明式自愈系统——高可用分布式系统的设计之道-王昕系统的设计之道 王昕 高级技术专家 声明式自愈系统——高可用分布式 系统的设计之道 王昕 高级技术专家 自我介绍 王昕,阿里中间件技术团队高级技术专家,阿里云开放云平台布道师。具有10多年软件 系统开发和架构经验,在分布式系统领域经验丰富,长期参与高可用中间件系统、云平 台基础管理系统和云原生自动运维系统的构建。在国内外有10多项授权和在审软件技术 发明专利,并多次受邀出席技术会议,做技术专题分享。0 码力 | 44 页 | 2.47 MB | 1 年前3 声明式自愈系统——高可用分布式系统的设计之道-王昕系统的设计之道 王昕 高级技术专家 声明式自愈系统——高可用分布式 系统的设计之道 王昕 高级技术专家 自我介绍 王昕,阿里中间件技术团队高级技术专家,阿里云开放云平台布道师。具有10多年软件 系统开发和架构经验,在分布式系统领域经验丰富,长期参与高可用中间件系统、云平 台基础管理系统和云原生自动运维系统的构建。在国内外有10多项授权和在审软件技术 发明专利,并多次受邀出席技术会议,做技术专题分享。0 码力 | 44 页 | 2.47 MB | 1 年前3
 刘道平-从0到1,移动政务应用小程序系统架构演化13、安全渗透测试、运维监控 -- 确保系统稳定 一、业务应用上线前必须经过安全渗透测试。 1、在测试环境中扫描出:越权查询、SQL注入、明文传输等,要求整改 2、正式环境检查: 操作系统、数据库、中间件漏洞,建议打补丁 二、运维监控每日 1.采用ELK收集系统日志、监控异常信息 2. 对各业务系统API接口进行状态监控,每日输出报告 14、系统上线、系统截图 粤省事小程序码 目录 一、移动政务应用服务现状与痛点0 码力 | 35 页 | 15.60 MB | 1 年前3 刘道平-从0到1,移动政务应用小程序系统架构演化13、安全渗透测试、运维监控 -- 确保系统稳定 一、业务应用上线前必须经过安全渗透测试。 1、在测试环境中扫描出:越权查询、SQL注入、明文传输等,要求整改 2、正式环境检查: 操作系统、数据库、中间件漏洞,建议打补丁 二、运维监控每日 1.采用ELK收集系统日志、监控异常信息 2. 对各业务系统API接口进行状态监控,每日输出报告 14、系统上线、系统截图 粤省事小程序码 目录 一、移动政务应用服务现状与痛点0 码力 | 35 页 | 15.60 MB | 1 年前3
 QCon北京2018-《美团配送系统架构演进实践》-阴永俊美团配送系统架构演进实践 阴永俊 美团点评资深技术专家、美团配送业务系统团队负责人 2010年大连理工大学毕业,曾先后任职于Hikvision、人人网,从事过视频 监控、广告、IM、DevOps、中间件、数据仓库等技术方向 2015年加入美团·大众点评,负责配送业务系统建设,重点负责系统质量 保证、运营体系建设、核心系统架构升级等方向,支持美团配送业务发展 美团配送业务介绍 01 Agenda0 码力 | 31 页 | 15.26 MB | 1 年前3 QCon北京2018-《美团配送系统架构演进实践》-阴永俊美团配送系统架构演进实践 阴永俊 美团点评资深技术专家、美团配送业务系统团队负责人 2010年大连理工大学毕业,曾先后任职于Hikvision、人人网,从事过视频 监控、广告、IM、DevOps、中间件、数据仓库等技术方向 2015年加入美团·大众点评,负责配送业务系统建设,重点负责系统质量 保证、运营体系建设、核心系统架构升级等方向,支持美团配送业务发展 美团配送业务介绍 01 Agenda0 码力 | 31 页 | 15.26 MB | 1 年前3
共 15 条
- 1
- 2













