SelectDB案例 从 ClickHouse 到 Apache Doris数据架构演进 TDW 是腾讯最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖 掘等的存储和计算都是在 TDW 中进行,内容库数据平台的数据加工链路同样是在腾讯数据 仓库 TDW 上构建的。截止目前,内容库数据平台的数据架构已经从 1.0 演进到了 4.0 , 经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层的初步引 入到深度应用, 一个相对主流的架构,简单介绍一下各层的作用及工作原理: 数仓层:通过 ODS-DWD-DWS 三层将数据整合为不同主题的标签和指标体系, DWM 集市层围绕内容对象构建大宽表,从不同主题域 DWS 表中抽取字段。 加速层:在数仓中构建的大宽表导入到加速层中,Clickhouse 作为分析引擎, Elasticsearch 作为搜索/圈选引擎。 应用层:根据场景创建 DataSet, 的特性,解决了架构 1.0 中较为突出的问题。 数仓层:Apache Doris 的 Aggregate 数据模型可支持部分列实时更新,因此我们去 掉了 DWM 集市层的构建,直接增量到 Doris / ES 中构建宽表,解决了架构 1.0 中 上游数据更新延迟导致整个宽表延迟的问题,进而提升了数据的时效性。数据(指 标、标签等)通过 Spark 统一离线加载到 Kafka 中,使用 Flink0 码力 | 12 页 | 1.55 MB | 1 年前3
百度智能云 Apache Doris 文档该操作为异步操作,提交成功后,需通过 SHOW ALTER TABLE MATERIALIZED VIEW 查看作业进度。 MV name 物化视图的名称,必填项。 相同表的物化视图名称不可重复。 query 用于构建物化视图的查询语句,查询语句的结果既物化视图的数据。目前支持的 query 格式为: CREATE CREATE EXTERNAL RESOURCE EXTERNAL RESOURCE ``mysql_odbc_resource 则 前三个作为排序列。 如果 query 中包含分组列的话,则排序列必须和分组列一致。 properties 声明物化视图的一些配置,选填项。 支持以下配置: timeout: 物化视图构建的超时时间。 Example Example 假设 Base 表结构为: 1. 创建一个仅包含原始表 (k1, k2)列的物化视图 物化视图的 schema 如下图,物化视图仅包含两列 k1 Example Example Keywords Keywords years_sub MAKEDATE Description Description 功能:返回指定年份和 dayofyear 构建的日期。dayofyear 必须大于0,否则结果为空。 返回类型:date Example Example Keywords Keywords mysql mysql>> select select0 码力 | 203 页 | 1.75 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践仓能力,也欢 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado op/Spark分布式大数据技术生态来构建数据仓库,然后对数据进行适当的分层、加工、管理。而 在数据应用交互层面,由于时效性的要求,数据最终的展现查询还是需要通过DBMS(MySQL) 、MOLAP(Kylin)引擎来进行支撑。如下图所示:0 码力 | 8 页 | 429.42 KB | 1 年前3
共 3 条
- 1













