 Doris的数据导入机制以及原子性保证移动端日志 本地文件 数据分析 业务应用 实时大屏 多维报表 自助查询 用户画像 Doris 02 导入的问题 Vn Vn Vn Vn V1-Vn-1 02 导入的问题 • 部分数据丢失,产生脏数据 • 数据重复 数据完整性问题 原始数据 导入结果 已生效 Vn 已生效 V1-Vn-1 未生效 数据 已生效 V1-Vn-1 02 导入的问题 Vn • 多源数据访问:ES、MySQL • 通用协议输出:JDBC、ANSI SQL • 多种数据格式支持: 文本、PARQUET、ORC 04 使用案例 导入方式 04 使用案例 导入方式 同步/异步 场景 接口 Broker Load 异步 HDFS、BOS对象存储 MySQL Routine Load 异步 Kafka MySQL Stream load 同步 本地文件,数据流 HTTP Insert0 码力 | 33 页 | 21.95 MB | 1 年前3 Doris的数据导入机制以及原子性保证移动端日志 本地文件 数据分析 业务应用 实时大屏 多维报表 自助查询 用户画像 Doris 02 导入的问题 Vn Vn Vn Vn V1-Vn-1 02 导入的问题 • 部分数据丢失,产生脏数据 • 数据重复 数据完整性问题 原始数据 导入结果 已生效 Vn 已生效 V1-Vn-1 未生效 数据 已生效 V1-Vn-1 02 导入的问题 Vn • 多源数据访问:ES、MySQL • 通用协议输出:JDBC、ANSI SQL • 多种数据格式支持: 文本、PARQUET、ORC 04 使用案例 导入方式 04 使用案例 导入方式 同步/异步 场景 接口 Broker Load 异步 HDFS、BOS对象存储 MySQL Routine Load 异步 Kafka MySQL Stream load 同步 本地文件,数据流 HTTP Insert0 码力 | 33 页 | 21.95 MB | 1 年前3
 百度智能云 Apache Doris 文档10:10:10'。 SQL操作符 SQL操作符是一系列用于比较的函数,这些操作符广泛的用于select 语句的where从句中。 算数操作符 算数操作符 算术操作符通常出现在包含左操作数,操作符,(大部分情况下)右操作数组成的表达式中。 +和-:可以作为单元或2元操作符。当其作为单元操作符时,如+1, -2.5 或者-col_name, 表达的意思是该值乘以+1或者- 1。因此单元操作符+返回的 数据类型:通常expression的计算结果都是数字类型,该操作符也支持其他数据类型。如果必须要确保下界和上界都是可比较 的字符,可以使用cast()函数。 使用说明:如果操作数是string类型时使用时,应该小心些。起始部分为上界的长字符串将不会匹配上界,该字符串比上界要 大。between 'A' and 'M'不会匹配‘MJ’。如果需要确保表达式能够正常work,可以使用一些函数,如upper(), lower() 首部,$用来匹配字符串的尾部,.匹配任何一个单 字符,*匹配0个或多个选项,+匹配1个多个选项,?表示分贪婪表示等等。正则表达式需要匹配完整的值,并不是仅仅匹配字 符串的部分内容。如果想匹配中间的部分,正则表达式的前面部分可以写成^.* 或者 .*。 ^和$通常是可以省略的。RLKIE操作 符和REGEXP操作符是同义词。|操作符是个可选操作符,|两侧的正则表达式只需满足1侧条件即可,|操作符和两侧的正则表达0 码力 | 203 页 | 1.75 MB | 1 年前3 百度智能云 Apache Doris 文档10:10:10'。 SQL操作符 SQL操作符是一系列用于比较的函数,这些操作符广泛的用于select 语句的where从句中。 算数操作符 算数操作符 算术操作符通常出现在包含左操作数,操作符,(大部分情况下)右操作数组成的表达式中。 +和-:可以作为单元或2元操作符。当其作为单元操作符时,如+1, -2.5 或者-col_name, 表达的意思是该值乘以+1或者- 1。因此单元操作符+返回的 数据类型:通常expression的计算结果都是数字类型,该操作符也支持其他数据类型。如果必须要确保下界和上界都是可比较 的字符,可以使用cast()函数。 使用说明:如果操作数是string类型时使用时,应该小心些。起始部分为上界的长字符串将不会匹配上界,该字符串比上界要 大。between 'A' and 'M'不会匹配‘MJ’。如果需要确保表达式能够正常work,可以使用一些函数,如upper(), lower() 首部,$用来匹配字符串的尾部,.匹配任何一个单 字符,*匹配0个或多个选项,+匹配1个多个选项,?表示分贪婪表示等等。正则表达式需要匹配完整的值,并不是仅仅匹配字 符串的部分内容。如果想匹配中间的部分,正则表达式的前面部分可以写成^.* 或者 .*。 ^和$通常是可以省略的。RLKIE操作 符和REGEXP操作符是同义词。|操作符是个可选操作符,|两侧的正则表达式只需满足1侧条件即可,|操作符和两侧的正则表达0 码力 | 203 页 | 1.75 MB | 1 年前3
 SelectDB案例 从 ClickHouse 到 Apache Doris问题,收 益显著。接下来将为大家分享腾讯音乐内容库数据平台的数据架构演进历程与实践思考。 数据架构 1.0 2 如图所示为数据架构 1.0 架构图,分为数仓层、加速层、应用层三部分,数据架构 1.0 是 一个相对主流的架构,简单介绍一下各层的作用及工作原理:  数仓层:通过 ODS-DWD-DWS 三层将数据整合为不同主题的标签和指标体系, DWM 集市层围绕内容对象构建大宽表,从不同主题域 Elasticsearch 作为搜索/圈选引擎。  应用层:根据场景创建 DataSet,作为逻辑视图从大宽表选取所需的标签与指标,同 时可以二次定义衍生的标签与指标。 存在的问题:  数仓层:不支持部分列更新,当上游任一来源表产生延迟,均会造成大宽表延迟, 进而导致数据时效性下降。  加速层:不同的标签跟指标特性不同、更新频率也各不相同。由于 ClickHouse 目前 更擅长处理宽表场景 的优势:  Doris 架构极简易用,部署只需两个进程,不依赖其他系统,运维简单;兼容 MySQL 协议,并且使用标准 SQL。  支持丰富的数据模型,可满足多种数据更新方式,支持部分列更新。  支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查 询分析。  导入方式多样,支持从 HDFS/S3 等远端存储批量导入,也支持读取0 码力 | 12 页 | 1.55 MB | 1 年前3 SelectDB案例 从 ClickHouse 到 Apache Doris问题,收 益显著。接下来将为大家分享腾讯音乐内容库数据平台的数据架构演进历程与实践思考。 数据架构 1.0 2 如图所示为数据架构 1.0 架构图,分为数仓层、加速层、应用层三部分,数据架构 1.0 是 一个相对主流的架构,简单介绍一下各层的作用及工作原理:  数仓层:通过 ODS-DWD-DWS 三层将数据整合为不同主题的标签和指标体系, DWM 集市层围绕内容对象构建大宽表,从不同主题域 Elasticsearch 作为搜索/圈选引擎。  应用层:根据场景创建 DataSet,作为逻辑视图从大宽表选取所需的标签与指标,同 时可以二次定义衍生的标签与指标。 存在的问题:  数仓层:不支持部分列更新,当上游任一来源表产生延迟,均会造成大宽表延迟, 进而导致数据时效性下降。  加速层:不同的标签跟指标特性不同、更新频率也各不相同。由于 ClickHouse 目前 更擅长处理宽表场景 的优势:  Doris 架构极简易用,部署只需两个进程,不依赖其他系统,运维简单;兼容 MySQL 协议,并且使用标准 SQL。  支持丰富的数据模型,可满足多种数据更新方式,支持部分列更新。  支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查 询分析。  导入方式多样,支持从 HDFS/S3 等远端存储批量导入,也支持读取0 码力 | 12 页 | 1.55 MB | 1 年前3
共 3 条
- 1













