 Apache Doris 在美团外卖数仓中的应用实践大家会选择MySQL等关系型DB 作为明细数据的快速检索查询,但当业务成长较快时,很快就会遇到性能瓶颈,并且运维成本也 很高。例如,大数据量的同步、新增字段、历史数据更新等操作,它们的维护成本都非常高。 外卖运营业务特点 美团的使命是“帮大家吃得更好,生活更好”。外卖业务为大家提供送餐服务,连接商家与用户, 这是一个劳动密集型的业务,外卖业务有上万人的运营团队来服务全国几百万的商家,并以“商圈 算与管理成本较高。ROLAP需要强大的关系型DB引擎支撑。长期以来,由于传统关系型DBMS的 数据处理能力有限,所以ROLAP模式受到很大的局限性。随着分布式、并行化技术成熟应用,MP P引擎逐渐表现出强大的高吞吐、低时延计算能力,号称“亿级秒开”的引擎不在少数,ROLAP模式 可以得到更好的延伸。单从业务实际应用考虑,性能在千万量级关联查询现场计算秒开的情况下 ,已经可以覆盖到很多应用场景,具备应用的可能 擎的核心是通过将数据分散,以实现 CPU、IO、内存资源的分布,来提升并行计算能力。在当前数据存储以磁盘为主的情况下,数据S can需要的较大的磁盘IO,以及并行导致的高CPU,仍然是资源的短板。因此,高频的大规模汇 总统计,并发能力将面临较大挑战,这取决于集群硬件方面的并行计算能力。传统去重算法需要 大量计算资源,实时的大规模去重指标对CPU、内存都是一个巨大挑战。目前Doris最新版本已经 支0 码力 | 8 页 | 429.42 KB | 1 年前3 Apache Doris 在美团外卖数仓中的应用实践大家会选择MySQL等关系型DB 作为明细数据的快速检索查询,但当业务成长较快时,很快就会遇到性能瓶颈,并且运维成本也 很高。例如,大数据量的同步、新增字段、历史数据更新等操作,它们的维护成本都非常高。 外卖运营业务特点 美团的使命是“帮大家吃得更好,生活更好”。外卖业务为大家提供送餐服务,连接商家与用户, 这是一个劳动密集型的业务,外卖业务有上万人的运营团队来服务全国几百万的商家,并以“商圈 算与管理成本较高。ROLAP需要强大的关系型DB引擎支撑。长期以来,由于传统关系型DBMS的 数据处理能力有限,所以ROLAP模式受到很大的局限性。随着分布式、并行化技术成熟应用,MP P引擎逐渐表现出强大的高吞吐、低时延计算能力,号称“亿级秒开”的引擎不在少数,ROLAP模式 可以得到更好的延伸。单从业务实际应用考虑,性能在千万量级关联查询现场计算秒开的情况下 ,已经可以覆盖到很多应用场景,具备应用的可能 擎的核心是通过将数据分散,以实现 CPU、IO、内存资源的分布,来提升并行计算能力。在当前数据存储以磁盘为主的情况下,数据S can需要的较大的磁盘IO,以及并行导致的高CPU,仍然是资源的短板。因此,高频的大规模汇 总统计,并发能力将面临较大挑战,这取决于集群硬件方面的并行计算能力。传统去重算法需要 大量计算资源,实时的大规模去重指标对CPU、内存都是一个巨大挑战。目前Doris最新版本已经 支0 码力 | 8 页 | 429.42 KB | 1 年前3
 Doris的数据导入机制以及原子性保证Doris中的导入 使用案例 04 Doris简介 01 • 基于MPP(大规模并行处理)架构的分析型数据库 01 Doris简介 • 性能卓越,PB级别数据毫秒/秒级响应 • 适用于高并发、低延时下的多维分析、实时报表等场景 • 由百度自研,2017年开源,2018年贡献给Apache社区后更名为 Apache Doris 系统定位 • 百度内部统称其为“百度数据仓库Palo” 实现高可用 • 正式开始对外提供服务 2015 • 正式开源 • 希望能帮助更多人、让更多 人帮助Doris 2017 • 贡献给Apache社区,更名 为Apache Doris • 截止目前,社区2000+star, Contributor 100+,一线互 联网广泛使用 2018 07 01 Doris简介 产品特性 简单易用 扩展性强 性能卓越 高可用 • 支持集群动态伸缩 • 高度集成,不依赖于外部存储系统 • 架构优雅,单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询,100台集群可达10w QPS • 流式导入单节点100MB/s,小批量导入毫 秒延迟 • 数据、元数据高可用,线上稳定服务6年 • 机器故障副本自动迁移 01 Doris简介 MySQL Tools (MySQL Networking)0 码力 | 33 页 | 21.95 MB | 1 年前3 Doris的数据导入机制以及原子性保证Doris中的导入 使用案例 04 Doris简介 01 • 基于MPP(大规模并行处理)架构的分析型数据库 01 Doris简介 • 性能卓越,PB级别数据毫秒/秒级响应 • 适用于高并发、低延时下的多维分析、实时报表等场景 • 由百度自研,2017年开源,2018年贡献给Apache社区后更名为 Apache Doris 系统定位 • 百度内部统称其为“百度数据仓库Palo” 实现高可用 • 正式开始对外提供服务 2015 • 正式开源 • 希望能帮助更多人、让更多 人帮助Doris 2017 • 贡献给Apache社区,更名 为Apache Doris • 截止目前,社区2000+star, Contributor 100+,一线互 联网广泛使用 2018 07 01 Doris简介 产品特性 简单易用 扩展性强 性能卓越 高可用 • 支持集群动态伸缩 • 高度集成,不依赖于外部存储系统 • 架构优雅,单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询,100台集群可达10w QPS • 流式导入单节点100MB/s,小批量导入毫 秒延迟 • 数据、元数据高可用,线上稳定服务6年 • 机器故障副本自动迁移 01 Doris简介 MySQL Tools (MySQL Networking)0 码力 | 33 页 | 21.95 MB | 1 年前3
 百度智能云 Apache Doris 文档的列。主要用于导入时保证数据顺序。 用于指定例行导入作业的通用参数。 目前我们支持以下参数: 1. 期望的并发度。一个例行导入作业会被分成多个子任务执行。这个参数指定一个作业最多有多少任务可以同时执行。 必须大于0。默认为3。 这个并发度并不是实际的并发度,实际的并发度,会通过集群的节点数、负载情况,以及数据源的情况综合考虑。 2. 这三个参数分别表示: 1. 每个子任务最大执行时间,单位是秒。范围为 一个查询计划处理更多的分片,则可以减少作业的执行时间。 但如果查询计划出错(比如调用 Broker 的 RPC 失败,远端存储出现抖动等),过多的 Tablet 会导致一个查询计划的重试成本 变高。 所以需要合理安排查询计划的个数以及每个查询计划所需要扫描的分片数,在执行时间和执行成功率之间做出平衡。 一般建议一个查询计划扫描的数据量在 3-5 GB内。 内存限制 内存限制 通常一个 Export "desireTaskConcurrentNum" "desireTaskConcurrentNum":: "1" "1",, // 用户设置的期望最大并发子任务数。 // 用户设置的期望最大并发子任务数。 "maxErrorNum" "maxErrorNum":: "0" "0",,0 码力 | 203 页 | 1.75 MB | 1 年前3 百度智能云 Apache Doris 文档的列。主要用于导入时保证数据顺序。 用于指定例行导入作业的通用参数。 目前我们支持以下参数: 1. 期望的并发度。一个例行导入作业会被分成多个子任务执行。这个参数指定一个作业最多有多少任务可以同时执行。 必须大于0。默认为3。 这个并发度并不是实际的并发度,实际的并发度,会通过集群的节点数、负载情况,以及数据源的情况综合考虑。 2. 这三个参数分别表示: 1. 每个子任务最大执行时间,单位是秒。范围为 一个查询计划处理更多的分片,则可以减少作业的执行时间。 但如果查询计划出错(比如调用 Broker 的 RPC 失败,远端存储出现抖动等),过多的 Tablet 会导致一个查询计划的重试成本 变高。 所以需要合理安排查询计划的个数以及每个查询计划所需要扫描的分片数,在执行时间和执行成功率之间做出平衡。 一般建议一个查询计划扫描的数据量在 3-5 GB内。 内存限制 内存限制 通常一个 Export "desireTaskConcurrentNum" "desireTaskConcurrentNum":: "1" "1",, // 用户设置的期望最大并发子任务数。 // 用户设置的期望最大并发子任务数。 "maxErrorNum" "maxErrorNum":: "0" "0",,0 码力 | 203 页 | 1.75 MB | 1 年前3
 SelectDB案例 从 ClickHouse 到 Apache Doris合和定义,但是不同的分 析师对同一数据的定义不尽相同、定义口径不一致,导致指标和标签缺乏统一管理, 4 这使得数据管理和使用的难度都变高。  Dataset 与物理位置绑定,应用层无法进行透明优化,如果 Doris 引擎出现负载较 高的情况,无法通过降低用户查询避免集群负载过高报错的问题。 数据架构 3.0 针对指标和标签定义口径不统一,数据使用和管理难度较高的问题,我们继续对架构进行升 版本开始,将支持倒排索引。可进行文本类 型的全文检索;支持中文、英文分词;支持文本、数值日期类型的等值和范围过滤;倒排索 引对数组类型也提供了支持,多个过滤条件可以任意进行 AND OR NOT 逻辑组合。由于高 性能的向量化实现和面向 AP 数据库的精简优化,Doris 的倒排索引相较于 ES 会有 3~5 倍性价比提升,即将在 2 月底发布的 2.0 preview 版本中可用于功能评估和性能测试,相 标签上下线,将低价值标签和指标下线处理后,后续数据不再写入,减少写入和存 储代价。 2、降低数据链路成本。 Doris 架构非常简单,只有 FE 和 BE 两类进程,不依赖其他组件,并通过一致性协议来保 证服务的高可用和数据的高可靠,自动故障修复,运维起来比较容易;  高度兼容 MySQL 语法,支持标准 SQL,极大降低开发人员接入使用成本;  支持多种联邦查询方式,支持对 Hive、MySQL、Elasticsearch0 码力 | 12 页 | 1.55 MB | 1 年前3 SelectDB案例 从 ClickHouse 到 Apache Doris合和定义,但是不同的分 析师对同一数据的定义不尽相同、定义口径不一致,导致指标和标签缺乏统一管理, 4 这使得数据管理和使用的难度都变高。  Dataset 与物理位置绑定,应用层无法进行透明优化,如果 Doris 引擎出现负载较 高的情况,无法通过降低用户查询避免集群负载过高报错的问题。 数据架构 3.0 针对指标和标签定义口径不统一,数据使用和管理难度较高的问题,我们继续对架构进行升 版本开始,将支持倒排索引。可进行文本类 型的全文检索;支持中文、英文分词;支持文本、数值日期类型的等值和范围过滤;倒排索 引对数组类型也提供了支持,多个过滤条件可以任意进行 AND OR NOT 逻辑组合。由于高 性能的向量化实现和面向 AP 数据库的精简优化,Doris 的倒排索引相较于 ES 会有 3~5 倍性价比提升,即将在 2 月底发布的 2.0 preview 版本中可用于功能评估和性能测试,相 标签上下线,将低价值标签和指标下线处理后,后续数据不再写入,减少写入和存 储代价。 2、降低数据链路成本。 Doris 架构非常简单,只有 FE 和 BE 两类进程,不依赖其他组件,并通过一致性协议来保 证服务的高可用和数据的高可靠,自动故障修复,运维起来比较容易;  高度兼容 MySQL 语法,支持标准 SQL,极大降低开发人员接入使用成本;  支持多种联邦查询方式,支持对 Hive、MySQL、Elasticsearch0 码力 | 12 页 | 1.55 MB | 1 年前3
共 4 条
- 1













