 Doris的数据导入机制以及原子性保证100+,一线互 联网广泛使用 2018 07 01 Doris简介 产品特性 简单易用 扩展性强 性能卓越 高可用 • 高度兼容MySQL • 支持在线表结构变更 • 支持集群动态伸缩 • 高度集成,不依赖于外部存储系统 • 架构优雅,单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询,100台集群可达10w QPS • 流式导入单节点100MB/s,小批量导入毫 Phase 2 总结 03 Doris 中的导入 • 写入带版本 • 查询带版本 多版本机制解决读写冲突 两阶段导入保证多表原子生效 • 支持并行导入 • 有冲突时按导入顺序生效,无冲突导入时并行生效 写入带版本 查询带版本 支持并行导入 冲突时按顺序生效 (多版本机制) (两阶段导入) 事务能力保证 使用案例 04 BI Application 数据加载0 码力 | 33 页 | 21.95 MB | 1 年前3 Doris的数据导入机制以及原子性保证100+,一线互 联网广泛使用 2018 07 01 Doris简介 产品特性 简单易用 扩展性强 性能卓越 高可用 • 高度兼容MySQL • 支持在线表结构变更 • 支持集群动态伸缩 • 高度集成,不依赖于外部存储系统 • 架构优雅,单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询,100台集群可达10w QPS • 流式导入单节点100MB/s,小批量导入毫 Phase 2 总结 03 Doris 中的导入 • 写入带版本 • 查询带版本 多版本机制解决读写冲突 两阶段导入保证多表原子生效 • 支持并行导入 • 有冲突时按导入顺序生效,无冲突导入时并行生效 写入带版本 查询带版本 支持并行导入 冲突时按顺序生效 (多版本机制) (两阶段导入) 事务能力保证 使用案例 04 BI Application 数据加载0 码力 | 33 页 | 21.95 MB | 1 年前3
 百度智能云 Apache Doris 文档yyyyyy" )) my_table my_table source_sequence source_sequence Baidu 百度智能云文档 SQL手册 33 通过 Label 的机制来保证数据导入的不丢不重。具体说明可以参阅 导入事务和原子性 文档。 4. 列映射、衍生列和过滤 Doris 可以在导入语句中支持非常丰富的列转换和过滤操作。支持绝大多数内置函数和 UDF。关于如何正确的使用这个功 会生效。 4. Label、导入事务、多表原子性 Doris 中所有导入任务都是原子生效的。并且在同一个导入任务中对多张表的导入也能够保证原子性。同时,Doris 还可以 通过 Label 的机制来保证数据导入的不丢不重。具体说明可以参阅 导入事务和原子性 文档。 5. 列映射、衍生列和过滤 Doris 可以在导入语句中支持非常丰富的列转换和过滤操作。支持绝大多数内置函数和 UDF。关于如何正确的使用这个功 SQL手册 54 替换较小值,否则无法替换) 这里我们仅需指定顺序列的类型,支持时间类型或整型。Doris 会创建一个隐藏的顺序列。 动态分区相关 动态分区相关参数如下: : 用于指定表级别的动态分区功能是否开启。默认为 true。 用于指定动态添加分区的时间单位,可选择为 DAY(天),WEEK(周),MONTH(月) : 用于指定向前删除多少个分区。值必须小于0。默认为 Integer0 码力 | 203 页 | 1.75 MB | 1 年前3 百度智能云 Apache Doris 文档yyyyyy" )) my_table my_table source_sequence source_sequence Baidu 百度智能云文档 SQL手册 33 通过 Label 的机制来保证数据导入的不丢不重。具体说明可以参阅 导入事务和原子性 文档。 4. 列映射、衍生列和过滤 Doris 可以在导入语句中支持非常丰富的列转换和过滤操作。支持绝大多数内置函数和 UDF。关于如何正确的使用这个功 会生效。 4. Label、导入事务、多表原子性 Doris 中所有导入任务都是原子生效的。并且在同一个导入任务中对多张表的导入也能够保证原子性。同时,Doris 还可以 通过 Label 的机制来保证数据导入的不丢不重。具体说明可以参阅 导入事务和原子性 文档。 5. 列映射、衍生列和过滤 Doris 可以在导入语句中支持非常丰富的列转换和过滤操作。支持绝大多数内置函数和 UDF。关于如何正确的使用这个功 SQL手册 54 替换较小值,否则无法替换) 这里我们仅需指定顺序列的类型,支持时间类型或整型。Doris 会创建一个隐藏的顺序列。 动态分区相关 动态分区相关参数如下: : 用于指定表级别的动态分区功能是否开启。默认为 true。 用于指定动态添加分区的时间单位,可选择为 DAY(天),WEEK(周),MONTH(月) : 用于指定向前删除多少个分区。值必须小于0。默认为 Integer0 码力 | 203 页 | 1.75 MB | 1 年前3
 SelectDB案例 从 ClickHouse 到 Apache Doris但仍然无法影响上游链路,数仓层有自己的语义逻辑,加速层有自己的导入配置,这样就造 成了数据管理机制的割裂。 数据架构 4.0 在数据架构 3.0 的基础上,我们对语义层进行更深层次的应用,在数据架构 4.0 中,我们 将语义层变为架构的中枢节点,目标是对所有的指标和标签统一定义,从计算-加速-查询实 现中心化、标准化管理,解决数据管理机制割裂的问题。 5 语义层作为架构中枢节点所带来的变化: 时降低成本开 销,是我们一直在思考的问题。在我们的场景中,成本优化主要得益于 Doris 自身优秀的 能力,这里为大家分享两点: 1、冷热数据进行精细化管理。  利用 Doris TTL 机制,在 Doris 中只存储近一年的数据,更早的数据放到存储代价 更低的 TDW 中;  支持分区级副本设置,3 个月以内的数据高频使用,分区设置为 3 副本 ;3-6 个 月数据分区调整为 20 码力 | 12 页 | 1.55 MB | 1 年前3 SelectDB案例 从 ClickHouse 到 Apache Doris但仍然无法影响上游链路,数仓层有自己的语义逻辑,加速层有自己的导入配置,这样就造 成了数据管理机制的割裂。 数据架构 4.0 在数据架构 3.0 的基础上,我们对语义层进行更深层次的应用,在数据架构 4.0 中,我们 将语义层变为架构的中枢节点,目标是对所有的指标和标签统一定义,从计算-加速-查询实 现中心化、标准化管理,解决数据管理机制割裂的问题。 5 语义层作为架构中枢节点所带来的变化: 时降低成本开 销,是我们一直在思考的问题。在我们的场景中,成本优化主要得益于 Doris 自身优秀的 能力,这里为大家分享两点: 1、冷热数据进行精细化管理。  利用 Doris TTL 机制,在 Doris 中只存储近一年的数据,更早的数据放到存储代价 更低的 TDW 中;  支持分区级副本设置,3 个月以内的数据高频使用,分区设置为 3 副本 ;3-6 个 月数据分区调整为 20 码力 | 12 页 | 1.55 MB | 1 年前3
共 3 条
- 1













