百度智能云 Apache Doris 文档能够访问远端存储系统。如 BOS 或 HDFS。关于具体信息,可参阅 Broker 文档。 指定导入的相关参数。目前支持以下参数: 导入超时时间。默认为 4 小时。单位秒。 最大容忍可过滤(数据不规范等原因)的数据比例。默认零容忍。取值范围为 0 到 1。 导入内存限制。默认为 2GB。单位为字节。 是否对数据进行严格限制。默认为 false。 指定某些受时区影响的函数的时区,如 等等,具体请查阅 用于指定文件列和表中列的映射关系,以及各种列转换等。关于这部分详细介绍,可以参阅 列的映射,转换与过滤 文档。 根据条件对导入的数据进行过滤。关于这部分详细介绍,可以参阅 列的映射,转换与过滤 文档。 最大容忍可过滤(数据不规范等原因)的数据比例。默认零容忍。取值范围为 0 到 1。 指定需要导入的分区。 指定导入的超时时间。单位秒。默认是 600 秒。可设置范围为 1 秒 ~ 14400 秒。 是否对数据进行严格限制。默认为0 码力 | 203 页 | 1.75 MB | 1 年前3
SelectDB案例 从 ClickHouse 到 Apache Doris份冗余的数据。 实时性比较差,由于每个 Source 表产出的时间不一样,往往会因为某些延迟比较 大的 Source 表导致整个数据链路延迟增大。 开发成本较高,该方案只能作为离线方式,若想实现实时方式则需要投入开发资源 进行额外的开发。 而在 Flink 中生成宽表,链路简单、成本低也容易实现,主要流程是:首先用 Spark 将相 关 Source 表最新数据离线导入到 Kafka 中, , TDW 无需维护两份冗余的数据,Kafka 也只需保存最新待导入的数据。同时该方案整体实时性更好且可控,并且大宽表聚合在 Flink 中执行,可灵活加入各种 ETL 逻辑,离线和实时可对多个开发逻辑进行复用,灵活度较高。 数据模型选择 目前我们生产环境所使用的版本为 Apache Doris 1.1.3,我们对其所支持的 Unique 主键模 型、Aggregate 聚合模型和 Duplicate 运维起来比较容易; 高度兼容 MySQL 语法,支持标准 SQL,极大降低开发人员接入使用成本; 支持多种联邦查询方式,支持对 Hive、MySQL、Elasticsearch 、Iceberg 等组件的 联邦查询分析,降低多数据源查询复杂度。 通过以上的方式,使得存储成本降低 42%,开发与时间成本降低了 40% ,成功实现降本提 效,后续我们将继续探索! 未来规划0 码力 | 12 页 | 1.55 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践齐逻辑复杂。 不同业务线需求差异大,指标需要良好扩展性。 由于业务上的复杂性,实时流计算中,需要考虑诸多业务口径的对齐,业务ER模型在合流处理中 开发成本较高,资源占用较大,通过设计基于Doris的准实时生产数仓,可以灵活地实现业务微批 处理,且开发生产成本都比较低。以下为基于Doris的准实时数仓架构设计,是典型的实时Lambd a生产架构: 实现准实时计算方案,需要以下能力的支撑: 实时的写入能力:目前支持Kafka0 码力 | 8 页 | 429.42 KB | 1 年前3
共 3 条
- 1













