使⽤Apache SkyWalking APM 监控 Apache ServiceComb使⽤Apache SkyWalking APM 监控 Apache ServiceComb 吴晟 Sheng Wu Huawei DevCloud http://skywalking.io Twitter @AsfSkyWalking 个⼈介绍 GitHub: https://github.com/wu-sheng Personal Homepage: https://wu-sheng0 码力 | 22 页 | 2.85 MB | 1 年前3
张波-虎牙直播在微服务改造中的实践微服务改造事项 DNS-F在数据 库场景的落地 名字服务在负 载均衡场景的 落地 DNS-F在微服 务场景的落地 应用层探活 数据库故障 恢复时间长 服务故障牵 引慢,流量 接入生效时 间长 DNS生效慢 内部服务无 就近接入能 力 服务性能下 降流量不摘 除 实 例 切 换 能 力 秒 级 流 量 牵 引 能 力 D N S 就 近 接 入 能 力 异 常 摘 除 公司内部注册中心比较多,常见的有zookeeper、 ectd、consul、eureka等。服务注册通常有三种: 自注册、第三方注册、注册中心主动同步,异构微 服务相互调用困难;公共DNS不稳定,解析结果生 效慢,解析失败率高;DNS无法提供内网环境的就 近接入能力,内部服务调用无法实现就近访问。 目标 DNS解析成功率 100% 公共DNS分钟级生效 内部DNS秒级生效 基于IP+CMDB实现就近访问能力 落地的改造和升级 Nacos Sync • 接入TARS注册服务 • 对接K8S注册服务 • 解决多数据中心环形同步 DNS-F • DNS-F 增加对外部域名的预缓存支持; • Agent监控数据对接公司内部监控; • 日志输出对接公司内部日志服务; • 对接公司CMDB; • DNS-F Cluster; • DNS 忽略大小写 Nacos CMDB • 扩展对接虎牙CMDB • 对接内部负载均衡策略0 码力 | 27 页 | 1.03 MB | 1 年前3
ServiceComb在华为消费者云的亿级用户微服务实践果服务端没 有返回响应,客户端业务线程就会一直阻塞(wait),傻等期 间,无法处理其它业务消息。 2、纠结的超时时间:服务的超时时间配置是个比较纠结的事 情,如果超时时间配置过大,如果响应慢,会导致线程被长时 间挂住;如果配置过小,则会导致超时增多,成功率降低。 3、雪崩效应:假如超时时间配置较大(例如3S),服务端响 应的平均时延达到了超时时间阈值,会导致业务线程长时间处 于w 感(例如1-3S),如果采用同步调用 + 大超时时间,在业务高峰期,如果 时延达到超时阈值,系统很容易被压挂 异步场景4:级联调用:需要级联调用多个微服务,希望提升可靠性,不会因为某个微服务处理慢而导致其它微服务调用被阻塞 传统I/O和业务线程分离技术: 纯Reactive异步: 性能对比测试:采用Reactive异步模式之 后,TPS提升 43% 左右、时延降低 28% 左右,CPU占用降低 客户资料查询服务 其它非关键服务 隔离仓-1 隔离仓-3 手机客户端 WAP客户端 图书门户 单点故障 正常 正常 隔离仓-2 配置隔离仓: 通过配置线程池隔离仓,实现快 慢接口、读写接口、核心和非核 心接口、管理和业务接口的调度 隔离,提升微服务可靠性 实践-轻量化 Website: http://servicecomb.incubator.apache.org/0 码力 | 15 页 | 1.15 MB | 1 年前3
杨钦民-唯品会微服务架构演进之路v0.2����� ����� ���� ���� ���� ����Proxy��� ��������� � ��������� ��� ���� ����� 全链路监控/eIcLIO功能d绍 ü 监控大盘快速展现系统问题 ü 秒级实时告警第一时间报告 cIAKAcaD AssLes ü 分钟级准实时告警周期性检测 指标规则 ü e告警事i快速定o根源问题 ü 异常发生率 ü 43L性能指标 ü 拓扑s赖关系和性能指标 ü 调用链检索Q通过W务关键字) ü 慢调用查询 ü 失败调用查询Q4NNT5NN) ü 调用链详情展示 监控告警 全链路监控/eIcLIO核心jv 应用开发c员 I5运维T监控中心c员 应用管理c员 • 快速故障告警和问题定o • 把握应用性能和容量评n • 提r可追溯的性能数据 全链路监控/eIcLIO架构 Web FDLEe AgeFK 接y层 A22 数据源 CafCa 集 群 实时计算层 4HaIC 集 群 OpenTSDB� Elas-c Search� HBase� 数据存储层 数据服务层 (aKa 4eIMAce 数据消费层 准实时监控 (ashboaId 实时监控 其它应用0 码力 | 43 页 | 3.89 MB | 1 年前3
康彬-基于微服务的混合云和同城双活实践服务元数据管理 服务发布 服务订阅 消息中间件 消息元数据管理 消息生产 消息消费 job调度系统 job元数据管理 job发布 job调度 配置中心 mq管理系统 调用链路 系统 监控告警 系统 发布系统 服务注册 中心 服务治理 系统 api-gateway 获客 授信 下单 还款 大促的痛 机器准备周期长,紧急 情况无法应对 大促后机器闲置率高,资 源浪费巨大 如果发生机房级的灾难怎么办? 单集群 随着流量越来越大,集群规模 越来越大,怎么破? 单元化&多活的范围 boss 客服系统 销售系统 风控审核 催收系统 政策管理 prod devops 监控系统 调用链路 日志系统 …… oa 人事系统 智能推荐 大数据 AI/BI …… 交易平台 电商 现金 信用卡 会员 桔子理财 风控平台 用户增长 发布系统 故障时,只影响内 业务系统 (业务错误码) 服务框架 (请求数、成功率等) 基础组件 (mq、fastdfs、redis、mysql) 操作系统 (CPU、内存、磁盘容量、系统负载) 出师不利后的复盘反思 相对更独立、历史包袱更轻业务板块试点 补齐短板、夯实基础 接入层具备用户维度流量调度能力 nginx+lua redis 获取分流策略 console 更新分流策略 uid=1 uid=30 码力 | 47 页 | 6.09 MB | 1 年前3
微服务架构实践-唯品会������ ������ ����� ������ ������ ������ ���� 11 N 如何定义服务 N 如何发布和订阅服务 N 如何治理服务 N 如何监控服务 N 如何定h故障 N ...... ��������� 12 ����� Registry! Client! Service! Monitor! • ��������������� ������������ ZooKeeper�������� ������� • ��������salus�� �http������ 75 �����Mercury���� ü 监控大盘快速展现系统问题 ü 秒级实时告警第一时间报告 criIicaB iHHJeH ü 分钟级y实时告警周期性检测指标规 则 ü a告警事d快速定h根源问题 异常发生率 ü 43.性能指标 ü 拓扑m赖v系和性能指标 ü 调用链检索O通过U务v键字P ü 慢调用查询 ü 失败调用查询O4LLQ5LLP ü 调用链详情展示 监控告警 76 �����Mercury���� 应用开发人员 I5运维Q监控W心人员 应用管理人员 • 快速故障告警和问题定h • 把握应用性能和容量评g • 提l可追溯的性能数据0 码力 | 120 页 | 82.16 MB | 1 年前3
华为云分布式事务DTM最佳实践CPU≥4核; RAM≥8GB; 系统盘:40GB; 数据盘:500GB; GaussDB 2 CPU≥8核; RAM≥16GB; 系统盘:40GB; 数据盘(SSD):1TB; 5000TPS Server 3 CPU≥8核; RAM≥16GB; 系统盘:40GB; 数据盘:500GB; GaussDB 2 CPU≥8核; CPU≥8核; RAM≥16GB; 系统盘:40GB; 数据盘(SSD):1TB; 10000TPS Server 5 CPU≥8核; RAM≥16GB; 系统盘:40GB; 数据盘:500GB; GaussDB 2 CPU≥8核; RAM≥16GB; 系统盘:40GB; 数据盘(SSD):1TB; 14 github.com/apache0 码力 | 15 页 | 3.10 MB | 1 年前3
消费者云CSE微服务实践微服务框架技术选型-微服务安全 有些业务场景对微服务调用安全要求较高,需要微服务框架支持 SSL传输、API鉴权和认证等 对于一些敏感信息,例如用户账号、金额等,在记录日志等落盘 和采集时需要做脱敏处理、资源占用要合理 敏感运维操作,需要记录安全日志,例如服务上线和下线、服务 的流控阈值修改等 微服务框架技术选型-服务治理能力 服务框架丌能只单单解决分布式RPC调用、服务注册&发现和路0 码力 | 22 页 | 1.39 MB | 1 年前3
可发布版-美团点评微服务OCTO-曹继光:-=P1:轻量级服务框架 W SDBnnEP:服务状态监控系统 W :1?:-PMPRBJ:一站式治理平台 W ABRR V :1?:服务调用统计 核心设计解析(%):S4/GEnR V 服务治理m理 核心设计解析(%):S4/GEnR V 逻辑架构 核心设计解析(&):SDBnnEP - 服务状态监控系统 定t:中心化节点健康监测;负责监控/更新节点状态 q势:相对于点对点心跳, Ø 易用性q秀 服务治理演进各c阶段 服务治理实践(%):基础能力达标 - 青铜段t 监控报警 数据分析 • 性能指标 • 来源去向 • f机分析 • 数据报表 • 调用链路 • 节点监控 • 性能监控 • b务监控 • 异常监控 • 服务注册 • 服务概要 • 提y者 • 消费者 注册中心 • �����! • OCTO-RPC�����������������������URL����! • ��Oncall��(����+������)! 服务治理实践(3) +易用性 V 细粒度埋点监控 Client� Server� :1?:服务框架最大性能 • (核(4,%K数据包3DhM测试 • 原则:框架自身不造成应用瓶颈 服务治理实践(() +性能提升 - 铂金段t0 码力 | 35 页 | 14.10 MB | 1 年前3
2-4-禚娴静-微服务你玩得起吗8 * 4 services 1 环境⼿手⼯工维护,频频出错 2014年问题倍出 部署成功率很低,部署时经常 有⼀一堆环境修改需求,运维⼈人 员出错机会增加,运维效率极 低。 2 缺乏有效监控 ⽆无法快速有效定位问题,⽆无法 快速有效知晓服务运⾏行状态, 服务资源浪费。 3 服务过⼤大,堵塞交付 快速增⻓长的结果导致服务过⼤大 或者服务过⼩小。⽽而过⼤大的服务 导致整个提交流⽔水线堵塞,测 � � � � DevOps 快速响应 只有这 些是不 够的 ful API Restful API ⾃自动 化部署 特性 团队 1 环境⼿手⼯工维护,频频出错 2 缺乏有效监控 3 服务过⼤大,堵塞交付 快速增⻓长的结果导致服务过⼤大 或者服务过⼩小。⽽而过⼤大的服务 导致整个提交流⽔水线堵塞,测 试⼈人员⽆无法拿到新的版本,交 付延期 4 团队出现冲突,架构腐化严重 基础设施⾃自动化 实施了新的部署流程,成功率 ⼤大⼤大提⾼高,部署时间缩短到 30分钟。 2 ⾼高效监控 服务提供状态汇报,利⽤用 Splunk聚合⽇日志,对服务运 ⾏行状态进⾏行监控,⼤大⼤大提⾼高运 维效率。 2.DevOps⼀一家亲 2012 2015 环境⼿手⼯工维护,频频出错 缺乏有效监控 3 服务过⼤大,堵塞交付 快速增⻓长的结果导致服务过⼤大 或者服务过⼩小。⽽而过⼤大的服务0 码力 | 51 页 | 8.18 MB | 1 年前3
共 33 条
- 1
- 2
- 3
- 4













