Doris的数据导入机制以及原子性保证Contributor 100+,一线互 联网广泛使用 2018 07 01 Doris简介 产品特性 简单易用 扩展性强 性能卓越 高可用 • 高度兼容MySQL • 支持在线表结构变更 • 支持集群动态伸缩 • 高度集成,不依赖于外部存储系统 • 架构优雅,单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询,100台集群可达10w QPS • 流式导入单节点100MB/s,小批量导入毫 (C++) 整体架构简单,产品易用 • 高度兼容MySQL协议 • 主从架构,不依赖任何其他组件 • FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析 业务应用 Request-to-prepare Commit/Abort Done Coordinator Participant Prepare Phase Commit Phase Prepare Txn • 创建事务 • 规划导入执行计划 • 分发子任务 03 Doris 中的导入 FE Leader Analyzer FE Follower 数据版本 N 事务状态 PREPARE 事务管理 1.Begin0 码力 | 33 页 | 21.95 MB | 1 年前3
SelectDB案例 从 ClickHouse 到 Apache Doris基于圈选结果,需要进行指标数据的聚合分析。 基于圈选结果,需要支持标签和指标的明细查询。 经过调研,我们最终采用了 Doris on ES 的解决方案来实现以上要求,将 Doris 的分布式 查询规划能力和 ES 的全文检索能力相结合。Doris on ES 主要查询模式如下所示: SELECT tag, agg(metric) FROM Doris 10 WHERE h 、Iceberg 等组件的 联邦查询分析,降低多数据源查询复杂度。 通过以上的方式,使得存储成本降低 42%,开发与时间成本降低了 40% ,成功实现降本提 效,后续我们将继续探索! 未来规划 未来我们还将继续进行迭代和优化,我们计划在以下几个方向进行探索: 实现自动识别冷热数据,用 Apache Doris 存储热数据,Iceberg 存储冷数据,利用 Doris 湖仓一体化能力简化查询。0 码力 | 12 页 | 1.55 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践较高的业务,需要严格控制查询时效(基本在毫秒级),对于并发不高的业务,允许进行 较大的查询,但也要考虑集群的承受能力。 通过一年来的应用以及Doris的不断改进升级,Doris的高可靠、高可用、高可扩展性也得 到进一步验证,服务稳定可靠。 准实时场景下的应用 离线业务分析大多基于T+1的离线数据,但在营销活动场景下,外卖团队往往需要当日的实时数 据进行业务变化的监控与分析,通常情况下会采用实时流计算来实现。 避免分钟级的生产波动影响,业务上10、15分钟准实时数据可以满足分析需要。 实时数据需要与离线数据进行日环比与周同比的比对。 订单业务需要事件时间,体验业务需要生产时间,业务对齐逻辑复杂。 不同业务线需求差异大,指标需要良好扩展性。 由于业务上的复杂性,实时流计算中,需要考虑诸多业务口径的对齐,业务ER模型在合流处理中 开发成本较高,资源占用较大,通过设计基于Doris的准实时生产数仓,可以灵活地实现业务微批 处理,且开0 码力 | 8 页 | 429.42 KB | 1 年前3
共 3 条
- 1













