Istio 与 Knative 踩坑实录踩坑实录 付铖 (花名:橙子) 酷家乐 技术专家1/25 从3D Mesh 到Service Mesh2/25 /01 /02 /03 实践进展 Istio的价值和问题 Knative的实践和瓶颈3/25 分享主题:字号 实践进展 /01 酷家乐在服务网格和FAAS方向上的实践进展汇总4/25 生产环境Istio稳定运行 酷家乐于2018年8月29日在国际站生产环 境开始全面使用Istio %15/25 Pilot、Mixer 性能瓶颈 Istio 的价值和问题16/25 总结 Istio 的价值和问题 • 已经可以稳定用在生产环境 • 工程架构收益 >> 性能资源损耗 • 根据组织和业务情况推广或改造,新旧体系可并存 • 超大规模应用,几个架构问题有待社区或业界解决17/25 分享主题:字号 Knative 的实践和瓶颈 /03 酷家乐在使用 Knative 作为 镜像源问题 • RevisionUnkown 状态(0.8版本) • Queue-proxy 内存增长(0.8版本) • Activator 重复创建并占用大量资源22/25 Knative 当前瓶颈 FAAS 实践进展 • 还未发布 Production-ready 版本 • Queue-proxy 过重 • 冷启动时间亟待优化 • 支持代码级更新?23/25 展望-推动组织变革0 码力 | 26 页 | 1.35 MB | 6 月前3
TiDB v8.2 中文手册开始,PD 微服务支持通过 TiUP 进行部署。你可以在集群中单独部署 tso 微服务和 scheduling 微 服务,从而实现 PD 的性能扩展,解决大规模集群下 PD 的性能瓶颈问题。当 PD 出现明显的性能瓶颈且 无法升级配置的情况下,建议考虑使用该模式。 更多信息,请参考用户文档。 • 为切换资源组的操作增加权限控制 #53440 @glorv TiDB 允许用户使用命令SET RESOURCE 节点数量应根据期待的性能和响应时间调 整。 * 当 OLTP 数据吞吐量较高时(例如写入或更新超过千万行/小时),由于网络和物理磁盘的写入 能力有限,内部 TiKV 与 TiFlash 之间的 I/O 会成为主要瓶颈,也容易产生读写热点。此时 TiFlash 节点数与 OLAP 计算量有较复杂非线性关系,需要根据具体系统状态调整节点数量。 81 • TiSpark – 如果你的业务需要基于 Spark 进行分析,请部署 并不能保证数据立即被删除,且当前插入的数据将会在将来的 TTL 任务中才会 被删除,哪怕短时间内 TTL 删除的速度低于插入的速度,也不能说明 TTL 的效率一定过慢。需要结合具 体情况分析。 • 如何判断 TTL 任务的瓶颈在扫描还是删除? 观察面板中 TTL Scan Worker Time By Phase 与 TTL Delete Worker Time By Phase 监控项。如果 scan worker0 码力 | 4987 页 | 102.91 MB | 10 月前3
TiDB v8.4 中文手册节点数量应根据期待的性能和响应时间调 整。 * 当 OLTP 数据吞吐量较高时(例如写入或更新超过千万行/小时),由于网络和物理磁盘的写入 能力有限,内部 TiKV 与 TiFlash 之间的 I/O 会成为主要瓶颈,也容易产生读写热点。此时 TiFlash 节点数与 OLAP 计算量有较复杂非线性关系,需要根据具体系统状态调整节点数量。 97 • TiSpark – 如果你的业务需要基于 Spark 进行分析,请部署 并不能保证数据立即被删除,且当前插入的数据将会在将来的 TTL 任务中才会 被删除,哪怕短时间内 TTL 删除的速度低于插入的速度,也不能说明 TTL 的效率一定过慢。需要结合具 体情况分析。 • 如何判断 TTL 任务的瓶颈在扫描还是删除? 观察面板中 TTL Scan Worker Time By Phase 与 TTL Delete Worker Time By Phase 监控项。如果 scan worker 应哪一张表。 • 如何合理配置 tidb_ttl_scan_worker_count 和 tidb_ttl_delete_worker_count? 1. 可以参考问题 “如何判断 TTL 任务的瓶颈在扫描还是删除?” 来考虑提升 tidb_ttl_scan_worker_ �→ count 还是 tidb_ttl_delete_worker_count。 2. 如果 TiKV 节点数量较多,提升0 码力 | 5072 页 | 104.05 MB | 10 月前3
TiDB v8.5 中文手册节点数量应根据期待的性能和响应时间调 整。 * 当 OLTP 数据吞吐量较高时(例如写入或更新超过千万行/小时),由于网络和物理磁盘的写入 能力有限,内部 TiKV 与 TiFlash 之间的 I/O 会成为主要瓶颈,也容易产生读写热点。此时 TiFlash 节点数与 OLAP 计算量有较复杂非线性关系,需要根据具体系统状态调整节点数量。 • TiSpark – 如果你的业务需要基于 Spark 进行分析,请部署 并不能保证数据立即被删除,且当前插入的数据将会在将来的 TTL 任务中才会 被删除,哪怕短时间内 TTL 删除的速度低于插入的速度,也不能说明 TTL 的效率一定过慢。需要结合具 体情况分析。 • 如何判断 TTL 任务的瓶颈在扫描还是删除? 观察面板中 TTL Scan Worker Time By Phase 与 TTL Delete Worker Time By Phase 监控项。如果 scan worker 应哪一张表。 • 如何合理配置 tidb_ttl_scan_worker_count 和 tidb_ttl_delete_worker_count? 1. 可以参考问题 “如何判断 TTL 任务的瓶颈在扫描还是删除?” 来考虑提升 tidb_ttl_scan_worker_ �→ count 还是 tidb_ttl_delete_worker_count。 2. 如果 TiKV 节点数量较多,提升0 码力 | 5095 页 | 104.54 MB | 10 月前3
NJSD eBPF 技术文档 - 0924版本关闭⽂件时会发送FLUSH请求和RELEASE请求FUSE⽂件IO读写流程FUSE的IO路径及瓶颈分析 • 对⽐测试 • ⽂件访问测试直接访问ext4 • 通过FUSE访问passthrough_ll底层ext4 • 内核调⽤延迟测试 • 与FUSE Daemon通讯120us左右,FUSE Daemon⼤概10us以内 • 瓶颈在/dev/fuse通讯开销基于FUSE可能的优化点 • 降低内核与libfuse通讯延迟 LD_PRELOAD重载⽂件系统系统调⽤ • vpp / f-stack / DirectFUSE • Kernel版本实现 • BentoFS 基于rust的实现采⽤LD_Preload⽅式瓶颈分析 • 环境 • FUSE daemon使⽤ passthrough_ll 调⽤底层ext4 • 进程共享内存通信延迟10us+ • others 开销 10us+ • fu0 码力 | 20 页 | 7.40 MB | 6 月前3
2024 中国开源开发者报告(模型推理计算成本)仍然较高。在短时间内, 算力、能源仍然会是大模型领域令人头疼的高墙。 根据报告【1】,能源消耗将会是 2030 模型 scaling 最卡脖子的因素。也就是说,在算力到 达瓶颈之前,首先可能会出现电能供应不足甚至交不起电费的问题。因此,算力层可以根据大模 型底层技术的特性,产出针对性的芯片,尤其是加速运算和降低能耗。这是未来 AI 芯片领域的 最优竞争力。 那么,把 为改善搜索引擎的质量和相关性而提出的,他能够构建并 理解实体及其之间的关系,能够整合不同来源的文档实现跨文档的实体关联,这使得知识图谱可 以对用户查询提供更加精确和语境化的回答,可以突破向量计算的瓶颈而执行多步推理、逻辑推 理。尽管有这些优势,知识图谱因其较高的构建和维护成本高,过去这几年也遭到了较多的诟病。 大模型技术的出现,为知识图谱技术的发展提供了新的机遇窗口。如何充分利用大语言模型 111 亿美元。最近谷歌 CEO Sundar Pichai 也表示,谷歌超 25%新代码均由 AI 完成。 很重要的一个原因是编程像数学一样结果非常容易评估,但是当下的 AI 编程有两个很大的 瓶颈,第一个是缺乏对领域知识的理解,比如 GitHub Copilot 对所有的编程语言用的都是一样 的模型,它甚至无法保证生成的这个编程语言的语法一定是正确的。 第二个是它缺乏原生的 IDE 支持,这也是因为时间关系,以前的0 码力 | 111 页 | 11.44 MB | 8 月前3
24-云原生中间件之道-高磊数据一体机 存储架构 存算一体: 调整困难、只能满 足一定的吞吐量要 求 存算分离: 自动调整、拓展能 力强,满足更大吞 吐量 存储自动扩缩容 手工填加机器, 手工同步 完全自动化 高性能 存在性能瓶颈 类似日志方式的顺 序写,性能高 易用程度 封闭体系,集成各 类优秀能力较差 集成能力强,多模 态接口,兼容各类 协议 可用性、稳定性 需要强大的旁路运 维能力 简化运维、自动化 容量和故障转移 云原生数据库其特点,使得应用场 提供更细力度(目录)的监控能力; • 提供更多维度的监控指标:读写时延、读写频率、IO 分布等指标; 3. 性能要求 • 在大数据计算场景同时大量应用访问存储的需求很高,这样对存储服务带来的性能需求成为应用运行效率的关键瓶颈 具体需求: • 底层存储服务提供更加优异的存储性能服务,优化 CPFS、GPFS 等高性能存储服务满足业务需求; • 容器编排层面:优化存储调度能力,实现存储就近访问、数据分散存储等方式降低单个存储卷的访问压力。0 码力 | 22 页 | 4.39 MB | 6 月前3
[PingCAP Meetup SH 5.26]TiDB在Ping++金融聚合支付下的实践0526- HTAP:基于TiDB Docker的聚合⽀支付私有化部署⽅方案 • 关于TiDB的线上运维 - TiDB体系 - 业务零感知运维 Ping++原数据架构及瓶颈 实时数仓数据源挑战: • 数⼗十亿交易易量量 • 多维度联合分析 • 实时分析+报表下载 场景⼀一:实时数仓数据源⽀支撑 数仓数据源选型过程: • RDS快速上线 最⼤大承载3个⽉月交易易量量分析0 码力 | 11 页 | 630.95 KB | 6 月前3
阿里云容器服务大促备战李斌 阿里云容器服务 全民双十一 基于容器服务的大促备战 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT我是谁挑战在哪里? 极限并发 人为失误 系统瓶颈 雪崩 单点失效 成本控制 用户体验 最终一致性 稳定性 资源不足 资源利用率 安全风险备战工具箱 服务化 开发运维一体化 弹性 极致性能 高可用 全站上云 安全加固 人工智能 大数据0 码力 | 17 页 | 17.74 MB | 6 月前3
TGT服务器的优化多个target时,如果挂的设备多,一旦客户端请求量大,就会忙不过来。 • 开源界有尝试修改 • 例如sheepdog的开发者提交过一个patch,但是测试效果不理想,分析 原因,event loop依然是瓶颈对TGT的性能优化 • IO是使用多个epoll 线程,充分发挥多CPU能力 • 当前策略是每个target一个epoll线程,负责Initiator发过来的I/O • 好处是各target上的0 码力 | 15 页 | 637.11 KB | 6 月前3
共 44 条
- 1
- 2
- 3
- 4
- 5













