SelectDB案例 从 ClickHouse 到 Apache Doris, 4 这使得数据管理和使用的难度都变高。 Dataset 与物理位置绑定,应用层无法进行透明优化,如果 Doris 引擎出现负载较 高的情况,无法通过降低用户查询避免集群负载过高报错的问题。 数据架构 3.0 针对指标和标签定义口径不统一,数据使用和管理难度较高的问题,我们继续对架构进行升 级。数据架构 3.0 主要的变化是引入了专门的语义层,语义层的主要作用是将技术语言转 接着我们在数据写入方面也进行了调整优化,这里几点小经验与大家分享: Flink 预聚合:通过主键 ID 预聚合,减少写入压力。(前文已说明,此处不再赘述) 写入 Batch 大小自适应变更:为了不占用过多 Flink 资源,我们实现了从同一个 Kafka Topic 中消费数据写入到不同 Doris 表中的功能,并且可以根据数据的大小 自动调整写入的批次,尽量做到攒批低频写入。 Doris0 码力 | 12 页 | 1.55 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践擎的核心是通过将数据分散,以实现 CPU、IO、内存资源的分布,来提升并行计算能力。在当前数据存储以磁盘为主的情况下,数据S can需要的较大的磁盘IO,以及并行导致的高CPU,仍然是资源的短板。因此,高频的大规模汇 总统计,并发能力将面临较大挑战,这取决于集群硬件方面的并行计算能力。传统去重算法需要 大量计算资源,实时的大规模去重指标对CPU、内存都是一个巨大挑战。目前Doris最新版本已经 支 订单业务需要事件时间,体验业务需要生产时间,业务对齐逻辑复杂。 不同业务线需求差异大,指标需要良好扩展性。 由于业务上的复杂性,实时流计算中,需要考虑诸多业务口径的对齐,业务ER模型在合流处理中 开发成本较高,资源占用较大,通过设计基于Doris的准实时生产数仓,可以灵活地实现业务微批 处理,且开发生产成本都比较低。以下为基于Doris的准实时数仓架构设计,是典型的实时Lambd a生产架构: 实现准实时计算方案,需要以下能力的支撑: 5 / 8 Apache Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com ,随着后续Page Cache,内存表等能力的上线,IO将不再拖后腿,并发能力将有较大提升。 可靠的调度能力:提供5、10、15、30分钟的调度保障能力。 Lambda架构简化:实时数据与离线数据更好的在Doris中进行融合,灵活支撑应用。0 码力 | 8 页 | 429.42 KB | 1 年前3
百度智能云 Apache Doris 文档Broker 文档。 指定导入的相关参数。目前支持以下参数: 导入超时时间。默认为 4 小时。单位秒。 最大容忍可过滤(数据不规范等原因)的数据比例。默认零容忍。取值范围为 0 到 1。 导入内存限制。默认为 2GB。单位为字节。 是否对数据进行严格限制。默认为 false。 指定某些受时区影响的函数的时区,如 等等,具体请查阅 时区 文档。 column list column list 导出的路径,需为目录。 用于指定一些导出参数。 可以指定如下参数: :指定导出的列分隔符,默认为\t。仅支持单字节。 :指定导出的行分隔符,默认为\n。仅支持单字节。 :导出在单个 BE 节点的内存使用上限,默认为 2GB,单位为字节。 :导入作业的超时时间,默认为2小时,单位是秒。 :每个子任务能分配扫描的最大 Tablet 数量。 导出功能需要通过 Broker 进程写数据到远端存储上。这里需要定义相关的连接信息供 一般建议一个查询计划扫描的数据量在 3-5 GB内。 内存限制 内存限制 通常一个 Export 作业的查询计划只有 两部分,不涉及需要太多内存的计算逻辑。所以通常 2GB 的默认内存限制可 以满足需求。 但在某些场景下,比如一个查询计划,在同一个 BE 上需要扫描的 Tablet 过多,或者 Tablet 的数据版本过多时,可能会导致内 存不足。此时需要通过这个 参数设置更大的内存,比如 4GB、8GB 等。0 码力 | 203 页 | 1.75 MB | 1 年前3
共 3 条
- 1













