 SelectDB案例 从 ClickHouse 到 Apache Doris表导致整个数据链路延迟增大。  开发成本较高,该方案只能作为离线方式,若想实现实时方式则需要投入开发资源 进行额外的开发。 而在 Flink 中生成宽表,链路简单、成本低也容易实现,主要流程是:首先用 Spark 将相 关 Source 表最新数据离线导入到 Kafka 中, 接着使用 Flink 来消费 Kafka,并通过主键 ID 构建出一张大宽表,最后将大宽表导入到 Doris 改写成具体的列名 a4。这样名称的修改只 是修改其元数据,底层 Doris 的表结构可以保持不变。  为了实现标签灵活上下架,我们通过统计标签的使用情况来分析标签的价值,将低 价值的标签进入下架流程。下架指的是对元信息进行状态标注,在下架标签重新上 架之前,不会继续导入其数据,元信息中数据可用时间也不会发生变化。  对于实时新增标签/指标,我们基于名称 ID 的映射在 Doris 表中预先创建适量0 码力 | 12 页 | 1.55 MB | 1 年前3 SelectDB案例 从 ClickHouse 到 Apache Doris表导致整个数据链路延迟增大。  开发成本较高,该方案只能作为离线方式,若想实现实时方式则需要投入开发资源 进行额外的开发。 而在 Flink 中生成宽表,链路简单、成本低也容易实现,主要流程是:首先用 Spark 将相 关 Source 表最新数据离线导入到 Kafka 中, 接着使用 Flink 来消费 Kafka,并通过主键 ID 构建出一张大宽表,最后将大宽表导入到 Doris 改写成具体的列名 a4。这样名称的修改只 是修改其元数据,底层 Doris 的表结构可以保持不变。  为了实现标签灵活上下架,我们通过统计标签的使用情况来分析标签的价值,将低 价值的标签进入下架流程。下架指的是对元信息进行状态标注,在下架标签重新上 架之前,不会继续导入其数据,元信息中数据可用时间也不会发生变化。  对于实时新增标签/指标,我们基于名称 ID 的映射在 Doris 表中预先创建适量0 码力 | 12 页 | 1.55 MB | 1 年前3
 Doris的数据导入机制以及原子性保证导入方式为同步或异步。 确定导入方式的类型 • 每一批次数据唯一且固定,保证 At-Most-Once 制定 Label 生成策略 • 外部系统需要保证自身的 At-Least-Once,这样就可以保证 导入流程的 Exactly-Once。 程序自身保证 At-Least-Once 多表原子性导入 • 每个表拆分多个任务,并下发BE • BE执行后汇报FE • FE 判断导入多数完成 publish0 码力 | 33 页 | 21.95 MB | 1 年前3 Doris的数据导入机制以及原子性保证导入方式为同步或异步。 确定导入方式的类型 • 每一批次数据唯一且固定,保证 At-Most-Once 制定 Label 生成策略 • 外部系统需要保证自身的 At-Least-Once,这样就可以保证 导入流程的 Exactly-Once。 程序自身保证 At-Least-Once 多表原子性导入 • 每个表拆分多个任务,并下发BE • BE执行后汇报FE • FE 判断导入多数完成 publish0 码力 | 33 页 | 21.95 MB | 1 年前3
 百度智能云 Apache Doris 文档在某些情况下,用户的 HTTP 连接可能会异常断开导致无法获取最终的返回结果。此时可以使用相同的 Label 重新提交导入 任务,重新提交的任务可能有如下结果: 1. 状态为 , 或者 。此时按照正常的流程处理即可。 2. 状态为 。则此时需继续查看 字段。如果该字段值为 ,则表 示这个 Label 对应的导入任务已经成功,无需在重试。如果为 ,则表示这个 Label 对应的导入任务依然在 100 个文件。 CREATE-RESOURCE CREATE RESOURCE CREATE RESOURCE Description Description 用于创建一种资源。资源可以被其他流程引用。 目前支持的资源类型: 1. ODBC 用于设置 ODBC 连接信息。 :资源类型。固定填写: 。 :数据源连接目标。 :数据源连接用户名密码。 :数据源中的数据库和表名称。 FINISHED,当 Load job 处于这两个阶段时,导入完成。其中 CANCELLED 为导 入失败,FINISHED 为导入成功。 导入任务的进度描述。分为两种进度:ETL 和 LOAD,对应了导入流程的两个阶段 ETL 和 LOADING。目前 Broker load 由于 只有 LOADING 阶段,所以 ETL 则会永远显示为 LOAD 的进度范围为:0~100%。 如果所有导入表均完成导入,此时0 码力 | 203 页 | 1.75 MB | 1 年前3 百度智能云 Apache Doris 文档在某些情况下,用户的 HTTP 连接可能会异常断开导致无法获取最终的返回结果。此时可以使用相同的 Label 重新提交导入 任务,重新提交的任务可能有如下结果: 1. 状态为 , 或者 。此时按照正常的流程处理即可。 2. 状态为 。则此时需继续查看 字段。如果该字段值为 ,则表 示这个 Label 对应的导入任务已经成功,无需在重试。如果为 ,则表示这个 Label 对应的导入任务依然在 100 个文件。 CREATE-RESOURCE CREATE RESOURCE CREATE RESOURCE Description Description 用于创建一种资源。资源可以被其他流程引用。 目前支持的资源类型: 1. ODBC 用于设置 ODBC 连接信息。 :资源类型。固定填写: 。 :数据源连接目标。 :数据源连接用户名密码。 :数据源中的数据库和表名称。 FINISHED,当 Load job 处于这两个阶段时,导入完成。其中 CANCELLED 为导 入失败,FINISHED 为导入成功。 导入任务的进度描述。分为两种进度:ETL 和 LOAD,对应了导入流程的两个阶段 ETL 和 LOADING。目前 Broker load 由于 只有 LOADING 阶段,所以 ETL 则会永远显示为 LOAD 的进度范围为:0~100%。 如果所有导入表均完成导入,此时0 码力 | 203 页 | 1.75 MB | 1 年前3
共 3 条
- 1













