 百度智能云 Apache Doris 文档执行失败表示没有任何数据被成功导入,并返回如下: 其中 显示失败原因。后面的 url 可以用于查询错误的数据: 可以查看到具体错误行。 2. 超时时间 INSERT 操作的超时时间由 会话变量 控制。默认为5分钟。超时则作业会被取消。 3. Label 和原子性 INSERT 操作同样能够保证导入的原子性,可以参阅 导入事务和原子性 文档。 当需要使用 作为 insert 操作中的查询部分时,必须指定 部分。 4. 过滤阈值 与其他导入方式不同,INSERT 操作不能指定过滤阈值( )。默认的过滤阈值为 1,即素有错误行都可以被 忽略。 对于有要求数据不能够被过滤的业务场景,可以通过设置 会话变量 为 来确保当有数据被过滤掉的 时候, 不会被执行成功。 5. 性能问题 不见使用 方式进行单行的插入。如果必须这样使用,请将多行数据合并到一个 INSERT 语句中进行批量提交。 最佳实践 1. 导出数据量和导出效率 该功能本质上是执行一个 SQL 查询命令。最终的结果是单线程输出的。所以整个导出的耗时包括查询本身的耗时,和最终 结果集写出的耗时。如果查询较大,需要设置会话变量 适当的延长查询超时时间。 2. 导出文件的管理 Doris 不会管理导出的文件。包括导出成功的,或者导出失败后残留的文件,都需要用户自行处理。 3. 导出到本地文件 导出到本地文件的功0 码力 | 203 页 | 1.75 MB | 1 年前3 百度智能云 Apache Doris 文档执行失败表示没有任何数据被成功导入,并返回如下: 其中 显示失败原因。后面的 url 可以用于查询错误的数据: 可以查看到具体错误行。 2. 超时时间 INSERT 操作的超时时间由 会话变量 控制。默认为5分钟。超时则作业会被取消。 3. Label 和原子性 INSERT 操作同样能够保证导入的原子性,可以参阅 导入事务和原子性 文档。 当需要使用 作为 insert 操作中的查询部分时,必须指定 部分。 4. 过滤阈值 与其他导入方式不同,INSERT 操作不能指定过滤阈值( )。默认的过滤阈值为 1,即素有错误行都可以被 忽略。 对于有要求数据不能够被过滤的业务场景,可以通过设置 会话变量 为 来确保当有数据被过滤掉的 时候, 不会被执行成功。 5. 性能问题 不见使用 方式进行单行的插入。如果必须这样使用,请将多行数据合并到一个 INSERT 语句中进行批量提交。 最佳实践 1. 导出数据量和导出效率 该功能本质上是执行一个 SQL 查询命令。最终的结果是单线程输出的。所以整个导出的耗时包括查询本身的耗时,和最终 结果集写出的耗时。如果查询较大,需要设置会话变量 适当的延长查询超时时间。 2. 导出文件的管理 Doris 不会管理导出的文件。包括导出成功的,或者导出失败后残留的文件,都需要用户自行处理。 3. 导出到本地文件 导出到本地文件的功0 码力 | 203 页 | 1.75 MB | 1 年前3
 SelectDB案例 从 ClickHouse 到 Apache Doris数据拉取完成以后,需要和本地的指标表做 Join,一般以 SHUFFLE/BROADCAST 的方式,成本较高。 针对这两点,我们进行了以下优化: 11  增加了查询会话变量 es_optimize,以开启优化开关;  数据写入 ES 时,新增 BK 列用来存储主键 ID Hash 后的分桶序号,算法和 Doris 的分桶算法相同(CRC32);  BE0 码力 | 12 页 | 1.55 MB | 1 年前3 SelectDB案例 从 ClickHouse 到 Apache Doris数据拉取完成以后,需要和本地的指标表做 Join,一般以 SHUFFLE/BROADCAST 的方式,成本较高。 针对这两点,我们进行了以下优化: 11  增加了查询会话变量 es_optimize,以开启优化开关;  数据写入 ES 时,新增 BK 列用来存储主键 ID Hash 后的分桶序号,算法和 Doris 的分桶算法相同(CRC32);  BE0 码力 | 12 页 | 1.55 MB | 1 年前3
共 2 条
- 1













