 SelectDB案例 从 ClickHouse 到 Apache Doris过技术和数据的赋能,腾讯音乐娱乐持续创新产品,为用户带来更好的产品体验,提高用户 参与度,也为音乐人和合作伙伴在音乐的制作、发行和销售方面提供更大的支持。 在业务运营过程中我们需要对包括歌曲、词曲、专辑、艺人在内的内容对象进行全方位分析, 高效为业务赋能,内容库数据平台旨在集成各数据源的数据,整合形成内容数据资产(以指 标和标签体系为载体),为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分 析服务。 架构图,分为数仓层、加速层、应用层三部分,数据架构 1.0 是 一个相对主流的架构,简单介绍一下各层的作用及工作原理:  数仓层:通过 ODS-DWD-DWS 三层将数据整合为不同主题的标签和指标体系, DWM 集市层围绕内容对象构建大宽表,从不同主题域 DWS 表中抽取字段。  加速层:在数仓中构建的大宽表导入到加速层中,Clickhouse 作为分析引擎, Elasticsearch 作为搜索/圈选引擎。  将技术语言转 换为业务部门更容易理解的概念,目的是将标签 (tag)与指标(metric)变为“一等公民”,作为 数据定义与管理的基本对象。 引入语义层的优势有:  对于技术来说,应用层不再需要创建 DataSet,从语义层可直接获取特定内容对象 的标签集 (tagset)和指标集(metricset) 来发起查询。  对于数据分析师来说,可统一在语义层定义和创建衍生的指标和标签,解决了定义0 码力 | 12 页 | 1.55 MB | 1 年前3 SelectDB案例 从 ClickHouse 到 Apache Doris过技术和数据的赋能,腾讯音乐娱乐持续创新产品,为用户带来更好的产品体验,提高用户 参与度,也为音乐人和合作伙伴在音乐的制作、发行和销售方面提供更大的支持。 在业务运营过程中我们需要对包括歌曲、词曲、专辑、艺人在内的内容对象进行全方位分析, 高效为业务赋能,内容库数据平台旨在集成各数据源的数据,整合形成内容数据资产(以指 标和标签体系为载体),为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分 析服务。 架构图,分为数仓层、加速层、应用层三部分,数据架构 1.0 是 一个相对主流的架构,简单介绍一下各层的作用及工作原理:  数仓层:通过 ODS-DWD-DWS 三层将数据整合为不同主题的标签和指标体系, DWM 集市层围绕内容对象构建大宽表,从不同主题域 DWS 表中抽取字段。  加速层:在数仓中构建的大宽表导入到加速层中,Clickhouse 作为分析引擎, Elasticsearch 作为搜索/圈选引擎。  将技术语言转 换为业务部门更容易理解的概念,目的是将标签 (tag)与指标(metric)变为“一等公民”,作为 数据定义与管理的基本对象。 引入语义层的优势有:  对于技术来说,应用层不再需要创建 DataSet,从语义层可直接获取特定内容对象 的标签集 (tagset)和指标集(metricset) 来发起查询。  对于数据分析师来说,可统一在语义层定义和创建衍生的指标和标签,解决了定义0 码力 | 12 页 | 1.55 MB | 1 年前3
 Doris的数据导入机制以及原子性保证FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析 业务应用 实时大屏 多维报表 自助查询 用户画像 Doris 02 导入的问题 Vn Vn Vn Vn 通用协议输出:JDBC、ANSI SQL • 多种数据格式支持: 文本、PARQUET、ORC 04 使用案例 导入方式 04 使用案例 导入方式 同步/异步 场景 接口 Broker Load 异步 HDFS、BOS对象存储 MySQL Routine Load 异步 Kafka MySQL Stream load 同步 本地文件,数据流 HTTP Insert into 同步 命令行 MySQL Spark0 码力 | 33 页 | 21.95 MB | 1 年前3 Doris的数据导入机制以及原子性保证FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析 业务应用 实时大屏 多维报表 自助查询 用户画像 Doris 02 导入的问题 Vn Vn Vn Vn 通用协议输出:JDBC、ANSI SQL • 多种数据格式支持: 文本、PARQUET、ORC 04 使用案例 导入方式 04 使用案例 导入方式 同步/异步 场景 接口 Broker Load 异步 HDFS、BOS对象存储 MySQL Routine Load 异步 Kafka MySQL Stream load 同步 本地文件,数据流 HTTP Insert into 同步 命令行 MySQL Spark0 码力 | 33 页 | 21.95 MB | 1 年前3
 百度智能云 Apache Doris 文档临时目录,以及已经生成的文件不会被删除,需 要用户手动删除。 如果 Export 作业运行成功,在远端存储中产生的 目录,根据远端存储的文件系统语义,可能会保 留,也可能会被清除。比如在百度对象存储(BOS)中,通过 rename 操作将一个目录中的最后一个文件移走后,该目录也 会被删除。如果该目录没有被清除,用户可以手动清除。 Export 作业只会导出 Base 表的数据,不会导出物化视图的数据。 划分成多组后,每组内的数据按 列排序。对排序后的每组内的数 据,添加行号 (1、2、3、4、...)。 Window从句用来为窗口函数指定一个运算范围,以当前行为准,前后若干行作为窗口函数运算的对象。 Window从句支持的方法有: AVG() COUNT() FIRST_VALUE() LAST_VALUE() SUM() MAX() MIN() 对于 MAX() 和 MIN()0 码力 | 203 页 | 1.75 MB | 1 年前3 百度智能云 Apache Doris 文档临时目录,以及已经生成的文件不会被删除,需 要用户手动删除。 如果 Export 作业运行成功,在远端存储中产生的 目录,根据远端存储的文件系统语义,可能会保 留,也可能会被清除。比如在百度对象存储(BOS)中,通过 rename 操作将一个目录中的最后一个文件移走后,该目录也 会被删除。如果该目录没有被清除,用户可以手动清除。 Export 作业只会导出 Base 表的数据,不会导出物化视图的数据。 划分成多组后,每组内的数据按 列排序。对排序后的每组内的数 据,添加行号 (1、2、3、4、...)。 Window从句用来为窗口函数指定一个运算范围,以当前行为准,前后若干行作为窗口函数运算的对象。 Window从句支持的方法有: AVG() COUNT() FIRST_VALUE() LAST_VALUE() SUM() MAX() MIN() 对于 MAX() 和 MIN()0 码力 | 203 页 | 1.75 MB | 1 年前3
共 3 条
- 1













