SelectDB案例 从 ClickHouse 到 Apache Doris用户案例 导读:腾讯音乐内容库数据平台旨在为应用层提供库存盘点、分群画像、指标分析、标签圈 选等内容分析服务,高效为业务赋能。目前,内容库数据平台的数据架构已经从 1.0 演进到 了 4.0 ,经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层 的初步引入到深度应用,有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等 问题,收益显著。本文将为大家分 据挖 掘等的存储和计算都是在 TDW 中进行,内容库数据平台的数据加工链路同样是在腾讯数据 仓库 TDW 上构建的。截止目前,内容库数据平台的数据架构已经从 1.0 演进到了 4.0 , 经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层的初步引 入到深度应用,有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等问题,收 益显著。接下来将为大家 三层将数据整合为不同主题的标签和指标体系, DWM 集市层围绕内容对象构建大宽表,从不同主题域 DWS 表中抽取字段。 加速层:在数仓中构建的大宽表导入到加速层中,Clickhouse 作为分析引擎, Elasticsearch 作为搜索/圈选引擎。 应用层:根据场景创建 DataSet,作为逻辑视图从大宽表选取所需的标签与指标,同 时可以二次定义衍生的标签与指标。 存在的问题: 数仓层:不支持0 码力 | 12 页 | 1.55 MB | 1 年前3
百度智能云 Apache Doris 文档对于有要求数据不能够被过滤的业务场景,可以通过设置 会话变量 为 来确保当有数据被过滤掉的 时候, 不会被执行成功。 5. 性能问题 不见使用 方式进行单行的插入。如果必须这样使用,请将多行数据合并到一个 INSERT 语句中进行批量提交。 ROUTINE-LOAD ROUTINE LOAD ROUTINE LOAD Description Description {{'label' 'label'::'my_label 认证方式,从 Kakfa 导入 CSV 或 Json 格式的数据。 语法: 导入作业的名称,在同一个 database 内,相同名称只能有一个 job 在运行。 指定需要导入的表的名称。 数据合并类型。默认为 APPEND,表示导入的数据都是普通的追加写操作。MERGE 和 DELETE 类型仅适用于 Unique Key 模 型表。其中 MERGE 类型需要配合 [DELETE ON] 语句使用,以标注 Broker 服务进程来导入远端存储(如BOS、HDFS)上的数据。 每个导入需要指定一个唯一的 Label。后续可以通过这个 label 来查看作业进度。 用于描述一组需要导入的文件。 数据合并类型。默认为 APPEND,表示本次导入是普通的追加写操作。MERGE 和 DELETE 类型仅适用于 Unique Key 模型表。其中 MERGE 类型需要配合 语句使用,以标注 Delete0 码力 | 203 页 | 1.75 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于 Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado op/Spark分布式大数据技术生态来构建数据仓库,然后对数据进行适当的分层、加工、管理。而 在数据应用交互层面,由于时效性的要求,数据最终的展现查询还是需要通过DBMS(MySQL) 、MOLAP(Kylin)引擎来进行支撑。如下图所示: 如果想及时了 / 8 Apache Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com 所得的应用场景,美团平台使用Kylin作为公司的主要MOLAP引擎。MOLAP是预计算生产,在增 量业务,预设维度分析场景下表现良好,但在变化维的场景下生产成本巨大。例如,如果使用最 新商家类型回溯商家近三个月的表现,需要重新计算三个月的Cube,需花费几个小时,来计算近0 码力 | 8 页 | 429.42 KB | 1 年前3
共 3 条
- 1













