 SelectDB案例 从 ClickHouse 到 Apache Doris过技术和数据的赋能,腾讯音乐娱乐持续创新产品,为用户带来更好的产品体验,提高用户 参与度,也为音乐人和合作伙伴在音乐的制作、发行和销售方面提供更大的支持。 在业务运营过程中我们需要对包括歌曲、词曲、专辑、艺人在内的内容对象进行全方位分析, 高效为业务赋能,内容库数据平台旨在集成各数据源的数据,整合形成内容数据资产(以指 标和标签体系为载体),为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分 析服务。 架构图,分为数仓层、加速层、应用层三部分,数据架构 1.0 是 一个相对主流的架构,简单介绍一下各层的作用及工作原理:  数仓层:通过 ODS-DWD-DWS 三层将数据整合为不同主题的标签和指标体系, DWM 集市层围绕内容对象构建大宽表,从不同主题域 DWS 表中抽取字段。  加速层:在数仓中构建的大宽表导入到加速层中,Clickhouse 作为分析引擎, Elasticsearch 作为搜索/圈选引擎。  Apache Doris 的优势:  Doris 架构极简易用,部署只需两个进程,不依赖其他系统,运维简单;兼容 MySQL 协议,并且使用标准 SQL。  支持丰富的数据模型,可满足多种数据更新方式,支持部分列更新。  支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查 询分析。  导入方式多样,支持从0 码力 | 12 页 | 1.55 MB | 1 年前3 SelectDB案例 从 ClickHouse 到 Apache Doris过技术和数据的赋能,腾讯音乐娱乐持续创新产品,为用户带来更好的产品体验,提高用户 参与度,也为音乐人和合作伙伴在音乐的制作、发行和销售方面提供更大的支持。 在业务运营过程中我们需要对包括歌曲、词曲、专辑、艺人在内的内容对象进行全方位分析, 高效为业务赋能,内容库数据平台旨在集成各数据源的数据,整合形成内容数据资产(以指 标和标签体系为载体),为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分 析服务。 架构图,分为数仓层、加速层、应用层三部分,数据架构 1.0 是 一个相对主流的架构,简单介绍一下各层的作用及工作原理:  数仓层:通过 ODS-DWD-DWS 三层将数据整合为不同主题的标签和指标体系, DWM 集市层围绕内容对象构建大宽表,从不同主题域 DWS 表中抽取字段。  加速层:在数仓中构建的大宽表导入到加速层中,Clickhouse 作为分析引擎, Elasticsearch 作为搜索/圈选引擎。  Apache Doris 的优势:  Doris 架构极简易用,部署只需两个进程,不依赖其他系统,运维简单;兼容 MySQL 协议,并且使用标准 SQL。  支持丰富的数据模型,可满足多种数据更新方式,支持部分列更新。  支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查 询分析。  导入方式多样,支持从0 码力 | 12 页 | 1.55 MB | 1 年前3
 Doris的数据导入机制以及原子性保证Doris简介 产品特性 简单易用 扩展性强 性能卓越 高可用 • 高度兼容MySQL • 支持在线表结构变更 • 支持集群动态伸缩 • 高度集成,不依赖于外部存储系统 • 架构优雅,单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询,100台集群可达10w QPS • 流式导入单节点100MB/s,小批量导入毫 秒延迟 • 数据、元数据高可用,线上稳定服务6年 FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析 业务应用 实时大屏 多维报表 自助查询 用户画像 Doris 02 导入的问题 Vn Vn Vn Vn 通用协议输出:JDBC、ANSI SQL • 多种数据格式支持: 文本、PARQUET、ORC 04 使用案例 导入方式 04 使用案例 导入方式 同步/异步 场景 接口 Broker Load 异步 HDFS、BOS对象存储 MySQL Routine Load 异步 Kafka MySQL Stream load 同步 本地文件,数据流 HTTP Insert into 同步 命令行 MySQL Spark0 码力 | 33 页 | 21.95 MB | 1 年前3 Doris的数据导入机制以及原子性保证Doris简介 产品特性 简单易用 扩展性强 性能卓越 高可用 • 高度兼容MySQL • 支持在线表结构变更 • 支持集群动态伸缩 • 高度集成,不依赖于外部存储系统 • 架构优雅,单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询,100台集群可达10w QPS • 流式导入单节点100MB/s,小批量导入毫 秒延迟 • 数据、元数据高可用,线上稳定服务6年 FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析 业务应用 实时大屏 多维报表 自助查询 用户画像 Doris 02 导入的问题 Vn Vn Vn Vn 通用协议输出:JDBC、ANSI SQL • 多种数据格式支持: 文本、PARQUET、ORC 04 使用案例 导入方式 04 使用案例 导入方式 同步/异步 场景 接口 Broker Load 异步 HDFS、BOS对象存储 MySQL Routine Load 异步 Kafka MySQL Stream load 同步 本地文件,数据流 HTTP Insert into 同步 命令行 MySQL Spark0 码力 | 33 页 | 21.95 MB | 1 年前3
 百度智能云 Apache Doris 文档Doris会自动将CHAR类型字面常量转成时间类型字面常量。Doris接受的时间类型字面常量的输入格式为成YYYY-MM-DD HH:MM:SS.ssssss,或者只包含日期。其中上述格式中小数点后面的数字(毫秒数)可带可不带。例如,用户可以指定时间类型 为‘2010-01-01’,或者'2010-01-01 10:10:10'。 SQL操作符 SQL操作符是一系列用于比较的函数,这些操作符广泛的用于select Broker 服务名称。在公有云 Doris 中。Broker 服务名称为 指定 broker 所需的信息。这些信息通常被用于 Broker 能够访问远端存储系统。如 BOS 或 HDFS。关于具体信息,可参阅 Broker 文档。 指定导入的相关参数。目前支持以下参数: 导入超时时间。默认为 4 小时。单位秒。 最大容忍可过滤(数据不规范等原因)的数据比例。默认零容忍。取值范围为 0 到 1。 的机制来保证数据导入的不丢不重。具体说明可以参阅 导入事务和原子性 文档。 4. 列映射、衍生列和过滤 Doris 可以在导入语句中支持非常丰富的列转换和过滤操作。支持绝大多数内置函数和 UDF。关于如何正确的使用这个功 能,可参阅 列的映射,转换与过滤 文档。 5. 错误数据过滤 Doris 的导入任务可以容忍一部分格式错误的数据。容忍了通过 设置。默认为0,即表示当有一条错误数据 时,整个导入任务将会失败。如果0 码力 | 203 页 | 1.75 MB | 1 年前3 百度智能云 Apache Doris 文档Doris会自动将CHAR类型字面常量转成时间类型字面常量。Doris接受的时间类型字面常量的输入格式为成YYYY-MM-DD HH:MM:SS.ssssss,或者只包含日期。其中上述格式中小数点后面的数字(毫秒数)可带可不带。例如,用户可以指定时间类型 为‘2010-01-01’,或者'2010-01-01 10:10:10'。 SQL操作符 SQL操作符是一系列用于比较的函数,这些操作符广泛的用于select Broker 服务名称。在公有云 Doris 中。Broker 服务名称为 指定 broker 所需的信息。这些信息通常被用于 Broker 能够访问远端存储系统。如 BOS 或 HDFS。关于具体信息,可参阅 Broker 文档。 指定导入的相关参数。目前支持以下参数: 导入超时时间。默认为 4 小时。单位秒。 最大容忍可过滤(数据不规范等原因)的数据比例。默认零容忍。取值范围为 0 到 1。 的机制来保证数据导入的不丢不重。具体说明可以参阅 导入事务和原子性 文档。 4. 列映射、衍生列和过滤 Doris 可以在导入语句中支持非常丰富的列转换和过滤操作。支持绝大多数内置函数和 UDF。关于如何正确的使用这个功 能,可参阅 列的映射,转换与过滤 文档。 5. 错误数据过滤 Doris 的导入任务可以容忍一部分格式错误的数据。容忍了通过 设置。默认为0,即表示当有一条错误数据 时,整个导入任务将会失败。如果0 码力 | 203 页 | 1.75 MB | 1 年前3
 Apache Doris 在美团外卖数仓中的应用实践(存储格式,编码和压缩)的技术。 Doris的系统架构如下,主要分为FE和BE两个组件,FE主要负责查询的解析、编译、优化、调度 和元数 据管理;BE主要负责查询的执行和数据存储。关于Doris的更多技术细节,可参考其官方文档。 Doris的特点: 同时支持高并发点查询和高吞吐的Ad-hoc查询。 同时支持离线批量导入和实时数据导入。 同时支持明细和聚合查询。 兼容MySQL协议和标准SQL。 支持Rollup 较高的业务,需要严格控制查询时效(基本在毫秒级),对于并发不高的业务,允许进行 较大的查询,但也要考虑集群的承受能力。 通过一年来的应用以及Doris的不断改进升级,Doris的高可靠、高可用、高可扩展性也得 到进一步验证,服务稳定可靠。 准实时场景下的应用 离线业务分析大多基于T+1的离线数据,但在营销活动场景下,外卖团队往往需要当日的实时数 据进行业务变化的监控与分析,通常情况下会采用实时流计算来实现。 从目前实践效果看,其完全有替代Kyl in、Druid、ES等引擎的趋势。 目前,数据库技术进步飞速,近期柏睿数据发布全内存分布式数据库RapidsDB v4.0支持TB级毫 秒响应(处理千亿数据可实现毫秒级响应)。可以预见,数据库技术的进步将大大改善数仓的分 层管理与应用支撑效率,业务将变得“定义即可见”,也将极大地提升数据的价值。 参考资料 Doris文档和源码 Apache Kylin0 码力 | 8 页 | 429.42 KB | 1 年前3 Apache Doris 在美团外卖数仓中的应用实践(存储格式,编码和压缩)的技术。 Doris的系统架构如下,主要分为FE和BE两个组件,FE主要负责查询的解析、编译、优化、调度 和元数 据管理;BE主要负责查询的执行和数据存储。关于Doris的更多技术细节,可参考其官方文档。 Doris的特点: 同时支持高并发点查询和高吞吐的Ad-hoc查询。 同时支持离线批量导入和实时数据导入。 同时支持明细和聚合查询。 兼容MySQL协议和标准SQL。 支持Rollup 较高的业务,需要严格控制查询时效(基本在毫秒级),对于并发不高的业务,允许进行 较大的查询,但也要考虑集群的承受能力。 通过一年来的应用以及Doris的不断改进升级,Doris的高可靠、高可用、高可扩展性也得 到进一步验证,服务稳定可靠。 准实时场景下的应用 离线业务分析大多基于T+1的离线数据,但在营销活动场景下,外卖团队往往需要当日的实时数 据进行业务变化的监控与分析,通常情况下会采用实时流计算来实现。 从目前实践效果看,其完全有替代Kyl in、Druid、ES等引擎的趋势。 目前,数据库技术进步飞速,近期柏睿数据发布全内存分布式数据库RapidsDB v4.0支持TB级毫 秒响应(处理千亿数据可实现毫秒级响应)。可以预见,数据库技术的进步将大大改善数仓的分 层管理与应用支撑效率,业务将变得“定义即可见”,也将极大地提升数据的价值。 参考资料 Doris文档和源码 Apache Kylin0 码力 | 8 页 | 429.42 KB | 1 年前3
共 4 条
- 1













