从百度文件系统看大型分布式系统设计中的定式与创新文件系统 - The Baidu File System - 持久化存储 百度文件系统架构 设计一个分布式系统要考虑的 • 数据与计算的分片 • 分区故障容忍 • 数据一致性 • 系统扩展性 • 延迟与吞吐 • 成本与资源利用率 • … 数据与计算的分片 • 哈希分片 - 简单、均衡 - 扩容复杂、易用性差 - 一致性哈希、虚拟节点 • 按范围、数据量分 - 使用简单 - 需要管理元数据 一致性协议 - Paxos - Raft CAP到CAD的演变 • 必须容忍网络隔离 - CAP->CA • 跨地域的延迟 - CA->CAD/CAL • 多数情况下我们更重视可用性 - CAD->CD • 一致性与延迟的折衷 - 要求强一致的, 容忍延迟 - 要求低延迟的, 选择最终一致 提升系统扩展性 • 架构的可扩展性 - 拆分元数据节点 - 引入MetaServer 提升系统扩展性0 码力 | 24 页 | 937.45 KB | 1 年前3
分布式 KV 存储系统 Cellar 演进之路客户端 分片1&2 log Cellar—异地容灾 • 多机房建设 网络延迟大 专线稳定性差 • 异地容灾需求 跨集群数据同步 Cellar—异地容灾 集群节点同步 消息队列同步 复制延迟 低 高 系统复杂度 低 高 运维成本 低 高 实现难度 高 低 扩展性 低 高 • 低延迟 • 低复杂度(运维成本) Cellar—异地容灾 • Cellar起源 • 中心节点架构演进 Cellar—快慢队列 网络 线程 工作队列 工作 线程 问题: 共用队列&线程 线上慢请求:超时请求 1: 20 Cellar—快慢队列 网络 线程 读快队列 读快 线程 TP999延迟降低86% 读慢队列 写快队列 写慢队列 读慢 线程 写快 线程 写慢 线程 慢请求判断: • 耗时接口(range···) • value过大 • 单请求key过多 • ··· •0 码力 | 34 页 | 1.66 MB | 1 年前3
分布式异地多活架构实践之路响应时间慢 系统扩容难 大纲 • 产品发展中遇到的问题 • 异地多活存在哪些技术挑战 • 讯飞输入法解决方案 • 实际应用效果 • 后续规划 技术挑战 几十毫秒的延迟; 跨机房性能较慢 机房天然延迟 专线费用高; 专线不稳定 跨机房专线问题 依赖小服务,有一 定改造成本; 依赖外部服务 服务依赖问题 减少对业务开发影响; 需要封装屏蔽细节 业务开发影响 如何精准调度; 讯飞输入法解决方案 • 实际应用效果 • 未来规划 可用性 机房内故障 机房入口网 络故障 DNS问题 自动流量切换,业务 几乎没影响 10分钟迁移95%流量, 总体可控 几乎无劫持,延迟降低 20%,解析失败率率下 降15% 响应时间 优化前 优化后 系统扩容 北京IDC 合肥IDC 广州IDC 系统能够任意水平扩容 大纲 • 产品发展中遇到的问题 • 异地多活存在哪些技术挑战0 码力 | 36 页 | 1.66 MB | 1 年前3
数字货币交易系统架构 Python实现 黄毅as low sum(amount) as amount from trades group by 1 2 交易系统架构设计 交易系统架构设计-设计目标 • 吞吐量5w TPS, 延迟10ms • 能睡个好觉(数据持久化,数据最终一致性,容错) • 设计简单,运维方便 交易系统架构设计-关键点 • 内存撮合服务的状态持久化和高可用 • 消息处理顺序的保证 • 异步服务之间消息传送的可靠性0 码力 | 24 页 | 799.65 KB | 1 年前3
高性能高可用机票实时搜索系统舱位状态变化频繁 • 热点航线问题 • 计算量量巨⼤大 报价引擎 索引 搜索引擎核⼼心 • 规则库 => 索引库 • 规则库写⼊入量量⼤大,集群峰值达20K TPS • 要求同步延迟很低,不不超过60s • 保持顺序⼀一致性,如果先删后插变成 先插后删,数据会不不⼀一致 • 数据最终⼀一致 • 系统⾼高可⽤用 报价引擎 — 组织索引 北北 京 | 上 海海 成0 码力 | 26 页 | 1.94 MB | 1 年前3
QCon北京2018-业务高速发展下的互联网金融系统架构演变-张现双+hystrix..(service) 热点削峰 流量 系统容量水位线 不限流 限流 时间 削峰策略[知容量,明底线] 限流 降级 熔断 拒绝服务 异步延迟 多节点参与 开关控制 过载保护 丢车保帅 容量水位线 底线 多节点有序参与 智能DNS,DNS负载均衡 限流(limit,lua),openresty,4层/7层LB0 码力 | 42 页 | 19.96 MB | 1 年前3
美团点评旅游推荐系统的演进•流程抽象化、组件化 •提供公共组件,支持定制组件 效果评估&线上迭代 •离线评估 •AUC •logloss •在线评估 •ABTest:按UUID分流 •线上迭代 •模型更新 •特征漂移:更新延迟 训练集表现 测试集表现 问题 <期望目标值 <期望目标值 Underfiting >期望目标值 接近或略逊于训练集 合适 >期望目标值 远差于训练集 Overfiting 模型调试 模型Debug工具0 码力 | 49 页 | 5.97 MB | 1 年前3
降级预案在同程艺龙的工程实践-王俊翔• 应⽤用、服务指标实时监控,健康状态评估 • 实时监测服务降级执⾏行行状态,降级发⽣生点数据 快照及时回溯 • 降级策略略管理理 • 多种策略略⽅方案:失效备援、服务熔断、资源隔 离、延迟处理理 • 策略略灵活调整,实时监控策略略运⾏行行状态 应⽤用 / 服务 降级代码管理理 • 线上代码开发、测试、发布 • 降级代码统⼀一管理理 • 脚本代码动态编译,对象管理理 业务保障平台应0 码力 | 26 页 | 18.67 MB | 1 年前3
声明式自愈系统——高可用分布式系统的设计之道-王昕Data 启动异常 进程被杀 服务器假死 断电 启动异常 超卖 进程死锁 负载均衡失效 业务线程池满 监控错误 流控不合理 心跳异常 缓存热点 缓存限流 数据库热点 数据库宕机 数据库延迟 CPU 抢占 内存抢占 内存错乱 上下文切换 磁盘满 磁盘坏 网络抖动 网卡慢 断网 DNS 故障 系统单点 异步阻塞 依赖超时 内存溢出 不可读写 目录 Ø 分布式系统面临的高可用问题0 码力 | 44 页 | 2.47 MB | 1 年前3
共 9 条
- 1













