 Apache Doris 在美团外卖数仓中的应用实践花费几个小时,来计算近 TB的历史数据。另外,应对非预设维度分析,MOLAP模型需要重新进行适配计算,也需要一定的 迭代工作。 明细数据的交互 业务分析除了宏观数据之外,对明细数据查询也是一种刚需。通常大家会选择MySQL等关系型DB 作为明细数据的快速检索查询,但当业务成长较快时,很快就会遇到性能瓶颈,并且运维成本也 很高。例如,大数据量的同步、新增字段、历史数据更新等操作,它们的维护成本都非常高。 业务生产方式中,历史数据的回溯失去了参考意义。在所有展现组织机构数据的业务场景中,组 织机构的变化是一个绕不开的技术问题。此外,商家品类、类型等其它维度也存在变化维的问题 。如下图所示: 数据生产面临的挑战 数据爆炸,每日使用最新维度对历史数据进行回溯计算。在Kylin的MOLAP模式下存在如下问题: 历史数据每日刷新,失去了增量的意义。 每日回溯历史数据量大,10亿+的历史数据回溯。 数据 数据计算耗时3小时+,存储1TB+,消耗大量计算存储资源,同时严重影响SLA的稳定性。 预计算的大量历史数据实际使用率低下,实际工作中对历史的回溯80%集中在近1个月左 右,但为了应对所有需求场景,业务要求计算近半年以上的历史。 不支持明细数据的查询。 解决方案:引入MPP引擎,数据现用现算 既然变化维的历史数据预计算成本巨大,最好的办法就是现用现算,但现用现算需要强大的并行 计算能力。OLAP的实现0 码力 | 8 页 | 429.42 KB | 1 年前3 Apache Doris 在美团外卖数仓中的应用实践花费几个小时,来计算近 TB的历史数据。另外,应对非预设维度分析,MOLAP模型需要重新进行适配计算,也需要一定的 迭代工作。 明细数据的交互 业务分析除了宏观数据之外,对明细数据查询也是一种刚需。通常大家会选择MySQL等关系型DB 作为明细数据的快速检索查询,但当业务成长较快时,很快就会遇到性能瓶颈,并且运维成本也 很高。例如,大数据量的同步、新增字段、历史数据更新等操作,它们的维护成本都非常高。 业务生产方式中,历史数据的回溯失去了参考意义。在所有展现组织机构数据的业务场景中,组 织机构的变化是一个绕不开的技术问题。此外,商家品类、类型等其它维度也存在变化维的问题 。如下图所示: 数据生产面临的挑战 数据爆炸,每日使用最新维度对历史数据进行回溯计算。在Kylin的MOLAP模式下存在如下问题: 历史数据每日刷新,失去了增量的意义。 每日回溯历史数据量大,10亿+的历史数据回溯。 数据 数据计算耗时3小时+,存储1TB+,消耗大量计算存储资源,同时严重影响SLA的稳定性。 预计算的大量历史数据实际使用率低下,实际工作中对历史的回溯80%集中在近1个月左 右,但为了应对所有需求场景,业务要求计算近半年以上的历史。 不支持明细数据的查询。 解决方案:引入MPP引擎,数据现用现算 既然变化维的历史数据预计算成本巨大,最好的办法就是现用现算,但现用现算需要强大的并行 计算能力。OLAP的实现0 码力 | 8 页 | 429.42 KB | 1 年前3
 SelectDB案例 从 ClickHouse 到 Apache Doris圈选,在标签圈选场景中,通常需要满足以下几个要求:  用户圈选逻辑比较复杂,数据架构需要支持同时有上百个标签做圈选过滤条件。  大部分圈选场景只需要最新标签数据,但是在指标查询时需要支持历史的数据的查 询。  基于圈选结果,需要进行指标数据的聚合分析。  基于圈选结果,需要支持标签和指标的明细查询。 经过调研,我们最终采用了 Doris on ES 的解决方案来实现以上要求,将0 码力 | 12 页 | 1.55 MB | 1 年前3 SelectDB案例 从 ClickHouse 到 Apache Doris圈选,在标签圈选场景中,通常需要满足以下几个要求:  用户圈选逻辑比较复杂,数据架构需要支持同时有上百个标签做圈选过滤条件。  大部分圈选场景只需要最新标签数据,但是在指标查询时需要支持历史的数据的查 询。  基于圈选结果,需要进行指标数据的聚合分析。  基于圈选结果,需要支持标签和指标的明细查询。 经过调研,我们最终采用了 Doris on ES 的解决方案来实现以上要求,将0 码力 | 12 页 | 1.55 MB | 1 年前3
 百度智能云 Apache Doris 文档行任何增删操作。 所以建议在建表前,先确认使用方式来进行合理的建表。 动态分区 动态分区 动态分区功能主要用于帮助用户自动的管理分区。通过设定一定的规则,Doris 系统定期增加新的分区或删除历史分区。 物化视图 物化视图 CREATE CREATE TABLE TABLE example_db example_db..dynamic_partition dynamic_partition :作业超时时间,单位秒。 example example 1. 查看 下最近一次 BACKUP 任务。 Keywords Keywords 最佳实践 最佳实践 1. 仅显示最近一次备份操作的信息。历史操作信息无法查看。 SHOW-ALTER-TABLE-MATERIALIZED-VIEW SHOW ALTER TABLE MATERIALIZED VIEW SHOW ALTER TABLE MATERIALIZED0 码力 | 203 页 | 1.75 MB | 1 年前3 百度智能云 Apache Doris 文档行任何增删操作。 所以建议在建表前,先确认使用方式来进行合理的建表。 动态分区 动态分区 动态分区功能主要用于帮助用户自动的管理分区。通过设定一定的规则,Doris 系统定期增加新的分区或删除历史分区。 物化视图 物化视图 CREATE CREATE TABLE TABLE example_db example_db..dynamic_partition dynamic_partition :作业超时时间,单位秒。 example example 1. 查看 下最近一次 BACKUP 任务。 Keywords Keywords 最佳实践 最佳实践 1. 仅显示最近一次备份操作的信息。历史操作信息无法查看。 SHOW-ALTER-TABLE-MATERIALIZED-VIEW SHOW ALTER TABLE MATERIALIZED VIEW SHOW ALTER TABLE MATERIALIZED0 码力 | 203 页 | 1.75 MB | 1 年前3
共 3 条
- 1













