分布式存储 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Apache Doris 在美团外卖数仓中的应用实践

化，建设持续进步的数仓能力，也欢迎大家多给我们提出建议。数仓交互层引擎的应用现状目前，互联网业务规模变得越来越大，不论是业务生产系统还是日志系统，基本上都是基于Hado op/Spark分布式大数据技术生态来构建数据仓库，然后对数据进行适当的分层、加工、管理。而在数据应用交互层面，由于时效性的要求，数据最终的展现查询还是需要通过DBMS（MySQL）、MOLAP（Kylin）引擎来进行支撑。如下图所示：数据爆炸，每日使用最新维度对历史数据进行回溯计算。在Kylin的MOLAP模式下存在如下问题：历史数据每日刷新，失去了增量的意义。每日回溯历史数据量大，10亿+的历史数据回溯。数据计算耗时3小时+，存储1TB+，消耗大量计算存储资源，同时严重影响SLA的稳定性。预计算的大量历史数据实际使用率低下，实际工作中对历史的回溯80%集中在近1个月左右，但为了应对所有需求场景，业务要求计算近半年以上的历史。不支持明细数据的查询。形式，MOLAP以Cube为表现形式，但计算与管理成本较高。ROLAP需要强大的关系型DB引擎支撑。长期以来，由于传统关系型DBMS的数据处理能力有限，所以ROLAP模式受到很大的局限性。随着分布式、并行化技术成熟应用，MP P引擎逐渐表现出强大的高吞吐、低时延计算能力，号称“亿级秒开”的引擎不在少数，ROLAP模式可以得到更好的延伸。单从业务实际应用考虑，性能在千万量级关联查询现场计算秒开的情况下

0 码力 | 8 页 | 429.42 KB | 1 年前
3
SelectDB案例从 ClickHouse 到 Apache Doris

标和标签体系为载体），为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分析服务。数据架构演进 TDW 是腾讯最大的离线数据处理平台，公司内大多数业务的产品报表、运营分析、数据挖掘等的存储和计算都是在 TDW 中进行，内容库数据平台的数据加工链路同样是在腾讯数据仓库 TDW 上构建的。截止目前，内容库数据平台的数据架构已经从 1.0 演进到了 4.0 ，经历了分析引擎从 ClickHouse 加速层：不同的标签跟指标特性不同、更新频率也各不相同。由于 ClickHouse 目前更擅长处理宽表场景，无区别将所有数据导入大宽表生成天的分区将造成存储资源的浪费，维护成本也将随之升高。  应用层：ClickHouse 采用的是计算和存储节点强耦合的架构，架构复杂，组件依赖严重，牵一发而动全身，容易出现集群稳定性问题，对于我们来说，同时维护 ClickHouse 和 Elasticsearch 列更新。  支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查询分析。  导入方式多样，支持从 HDFS/S3 等远端存储批量导入，也支持读取 MySQL Binlog 以及订阅消息队列 Kafka 中的数据，还可以通过 Flink Connector 实时/批次同步数据源（MySQL,Oracle,PostgreSQL

0 码力 | 12 页 | 1.55 MB | 1 年前
3
Doris的数据导入机制以及原子性保证

随百度业务飞速发展，对 Doris的性能、可用性、拓展性进行了全面升级 • 承担百度所有统计报表业务 2012 01 Doris简介 04 05 06 • 全新的数据模型，查询存储效率大幅提升 • MPP框架，支持分布式计算 2013 • 精简架构、统一用户客户端，实现高可用 • 正式开始对外提供服务 2015 • 正式开源 • 希望能帮助更多人、让更多人帮助Doris 2017 2018 07 01 Doris简介产品特性简单易用扩展性强性能卓越高可用 • 高度兼容MySQL • 支持在线表结构变更 • 支持集群动态伸缩 • 高度集成，不依赖于外部存储系统 • 架构优雅，单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询，100台集群可达10w QPS • 流式导入单节点100MB/s，小批量导入毫秒延迟 • 数据、元数据高可用，线上稳定服务6年高度兼容MySQL协议 • 主从架构，不依赖任何其他组件 • FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介导入的问题 02 典型应用场景——OLAP分析数据源数据应用数据存储对象存储BOS OLTP WEB端日志移动端日志本地文件数据分析业务应用实时大屏多维报表自助查询用户画像

0 码力 | 33 页 | 21.95 MB | 1 年前
3
百度智能云 Apache Doris 文档

INTO OUTFILE SELECT INTO OUTFILE Description Description 该命令用于将 SQL 产出的结果集导出到本地磁盘，或通过 Broker 导出到远端存储上。任意查询语句。 RESTORE RESTORE SNAPSHOT SNAPSHOT example_db1 example_db1..``snapshot_1 snapshot_1`` properties]] query_stmt query_stmt Baidu 百度智能云文档 SQL手册 24 指向文件存储的路径以及文件前缀。如：最终的文件名将由组成。其中文件序号由0开始，数量为文件被分割的数量。如：如果使用本地文件方式，则导出的文件会存储在集群内随机一台 Compute Node 节点上。具体节点信息在返回结果的 URL 中获知。导出文件格式。目前仅支持 query_timeout success_file_name success_file_name Baidu 百度智能云文档 SQL手册 27 该命令主要用于通过 Broker 服务进程来导入远端存储（如BOS、HDFS）上的数据。每个导入需要指定一个唯一的 Label。后续可以通过这个 label 来查看作业进度。用于描述一组需要导入的文件。数据合并类型。默认为 APPEND，表示本次导入是普通的追加写操作。MERGE

0 码力 | 203 页 | 1.75 MB | 1 年前
3

共 4 条前往

页

Apache Doris 美团 SelectDB 案例 ClickHouse Apache Doris 数据导入机制以及原子保证百度智能文档

分类

语言

格式

Apache Doris 在美团外卖数仓中的应用实践

SelectDB案例从 ClickHouse 到 Apache Doris

Doris的数据导入机制以及原子性保证

百度智能云 Apache Doris 文档

分类

语言

格式

Apache Doris 在美团外卖数仓中的应用实践

SelectDB案例 从 ClickHouse 到 Apache Doris

Doris的数据导入机制以及原子性保证

百度智能云 Apache Doris 文档

SelectDB案例从 ClickHouse 到 Apache Doris