 百度智能云 Apache Doris 文档INSERT INSERT VALUES VALUES Baidu 百度智能云文档 SQL手册 14 例行导入(Routine Load)功能,支持用户提交一个常驻的导入任务,通过不断的从指定的数据源读取数据,将数据导入到 Doris 中。 目前仅支持通过无认证或者 SSL 认证方式,从 Kakfa 导入 CSV 或 Json 格式的数据。 语法: 导入作业的名称,在同一个 database 用于描述导入数据。组成如下: 指定列分隔符,默认为 用于指定文件列和表中列的映射关系,以及各种列转换等。关于这部分详细介绍,可以参阅 [列的映射,转换与过滤] 文档。 过滤原始数据。关于这部分详细介绍,可以参阅 [列的映射,转换与过滤] 文档。 根据条件对导入的数据进行过滤。关于这部分详细介绍,可以参阅 [列的映射,转换与过滤] 文档。 指定导入目的表的哪些 partition 中。如果不指定,则会自动导入到对应的 期望的并发度。一个例行导入作业会被分成多个子任务执行。这个参数指定一个作业最多有多少任务可以同时执行。 必须大于0。默认为3。 这个并发度并不是实际的并发度,实际的并发度,会通过集群的节点数、负载情况,以及数据源的情况综合考虑。 2. 这三个参数分别表示: 1. 每个子任务最大执行时间,单位是秒。范围为 5 到 60。默认为10。 2. 每个子任务最多读取的行数。必须大于等于200000。默认是200000。0 码力 | 203 页 | 1.75 MB | 1 年前3 百度智能云 Apache Doris 文档INSERT INSERT VALUES VALUES Baidu 百度智能云文档 SQL手册 14 例行导入(Routine Load)功能,支持用户提交一个常驻的导入任务,通过不断的从指定的数据源读取数据,将数据导入到 Doris 中。 目前仅支持通过无认证或者 SSL 认证方式,从 Kakfa 导入 CSV 或 Json 格式的数据。 语法: 导入作业的名称,在同一个 database 用于描述导入数据。组成如下: 指定列分隔符,默认为 用于指定文件列和表中列的映射关系,以及各种列转换等。关于这部分详细介绍,可以参阅 [列的映射,转换与过滤] 文档。 过滤原始数据。关于这部分详细介绍,可以参阅 [列的映射,转换与过滤] 文档。 根据条件对导入的数据进行过滤。关于这部分详细介绍,可以参阅 [列的映射,转换与过滤] 文档。 指定导入目的表的哪些 partition 中。如果不指定,则会自动导入到对应的 期望的并发度。一个例行导入作业会被分成多个子任务执行。这个参数指定一个作业最多有多少任务可以同时执行。 必须大于0。默认为3。 这个并发度并不是实际的并发度,实际的并发度,会通过集群的节点数、负载情况,以及数据源的情况综合考虑。 2. 这三个参数分别表示: 1. 每个子任务最大执行时间,单位是秒。范围为 5 到 60。默认为10。 2. 每个子任务最多读取的行数。必须大于等于200000。默认是200000。0 码力 | 203 页 | 1.75 MB | 1 年前3
 SelectDB案例 从 ClickHouse 到 Apache Doris参与度,也为音乐人和合作伙伴在音乐的制作、发行和销售方面提供更大的支持。 在业务运营过程中我们需要对包括歌曲、词曲、专辑、艺人在内的内容对象进行全方位分析, 高效为业务赋能,内容库数据平台旨在集成各数据源的数据,整合形成内容数据资产(以指 标和标签体系为载体),为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分 析服务。 数据架构演进 TDW 是腾讯最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖 作为搜索/圈选引擎。  应用层:根据场景创建 DataSet,作为逻辑视图从大宽表选取所需的标签与指标,同 时可以二次定义衍生的标签与指标。 存在的问题:  数仓层:不支持部分列更新,当上游任一来源表产生延迟,均会造成大宽表延迟, 进而导致数据时效性下降。  加速层:不同的标签跟指标特性不同、更新频率也各不相同。由于 ClickHouse 目前 更擅长处理宽表场景,无区别将所有数据导入大宽表生成天的分区将造成存储资源 导入方式多样,支持从 HDFS/S3 等远端存储批量导入,也支持读取 MySQL Binlog 以及订阅消息队列 Kafka 中的数据,还可以通过 Flink Connector 实时/批次同步数 据源(MySQL,Oracle,PostgreSQL 等)到 Doris。****  社区目前 Apache Doris 社区活跃、技术交流更多,SelectDB 针对社区有专职的技 术支持团队,0 码力 | 12 页 | 1.55 MB | 1 年前3 SelectDB案例 从 ClickHouse 到 Apache Doris参与度,也为音乐人和合作伙伴在音乐的制作、发行和销售方面提供更大的支持。 在业务运营过程中我们需要对包括歌曲、词曲、专辑、艺人在内的内容对象进行全方位分析, 高效为业务赋能,内容库数据平台旨在集成各数据源的数据,整合形成内容数据资产(以指 标和标签体系为载体),为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分 析服务。 数据架构演进 TDW 是腾讯最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖 作为搜索/圈选引擎。  应用层:根据场景创建 DataSet,作为逻辑视图从大宽表选取所需的标签与指标,同 时可以二次定义衍生的标签与指标。 存在的问题:  数仓层:不支持部分列更新,当上游任一来源表产生延迟,均会造成大宽表延迟, 进而导致数据时效性下降。  加速层:不同的标签跟指标特性不同、更新频率也各不相同。由于 ClickHouse 目前 更擅长处理宽表场景,无区别将所有数据导入大宽表生成天的分区将造成存储资源 导入方式多样,支持从 HDFS/S3 等远端存储批量导入,也支持读取 MySQL Binlog 以及订阅消息队列 Kafka 中的数据,还可以通过 Flink Connector 实时/批次同步数 据源(MySQL,Oracle,PostgreSQL 等)到 Doris。****  社区目前 Apache Doris 社区活跃、技术交流更多,SelectDB 针对社区有专职的技 术支持团队,0 码力 | 12 页 | 1.55 MB | 1 年前3
 Doris的数据导入机制以及原子性保证主从架构,不依赖任何其他组件 • FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析 业务应用 实时大屏 多维报表 自助查询 用户画像 Doris 02 导入的问题 • 生效的数据未被读取到 读写冲突问题 原始数据 查询导入结果 源 操作1 操作2 处理 失败 失败 源 操作1 操作2 重试成功 额外重试 处理两次 02 导入的问题 At-Most-Once & At-Least-Once 语义 At-Most-Once语义 At-Least-Once语义 失败 源 操作1 操作2 重试成功 重试 只处理一次 Exactly-Once语义 (多版本机制) (两阶段导入) 事务能力保证 使用案例 04 BI Application 数据加载 数据输出 数据查询 数据导入总览 • 多源数据加载:HDFS、Kafka、本地数据 • 联邦数据查询:Spark • 多源数据访问:ES、MySQL • 通用协议输出:JDBC、ANSI SQL • 多种数据格式支持: 文本、PARQUET、ORC 04 使用案例 导入方式0 码力 | 33 页 | 21.95 MB | 1 年前3 Doris的数据导入机制以及原子性保证主从架构,不依赖任何其他组件 • FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析 业务应用 实时大屏 多维报表 自助查询 用户画像 Doris 02 导入的问题 • 生效的数据未被读取到 读写冲突问题 原始数据 查询导入结果 源 操作1 操作2 处理 失败 失败 源 操作1 操作2 重试成功 额外重试 处理两次 02 导入的问题 At-Most-Once & At-Least-Once 语义 At-Most-Once语义 At-Least-Once语义 失败 源 操作1 操作2 重试成功 重试 只处理一次 Exactly-Once语义 (多版本机制) (两阶段导入) 事务能力保证 使用案例 04 BI Application 数据加载 数据输出 数据查询 数据导入总览 • 多源数据加载:HDFS、Kafka、本地数据 • 联邦数据查询:Spark • 多源数据访问:ES、MySQL • 通用协议输出:JDBC、ANSI SQL • 多种数据格式支持: 文本、PARQUET、ORC 04 使用案例 导入方式0 码力 | 33 页 | 21.95 MB | 1 年前3
共 3 条
- 1













