存储配置 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

SelectDB案例从 ClickHouse 到 Apache Doris

标和标签体系为载体），为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分析服务。数据架构演进 TDW 是腾讯最大的离线数据处理平台，公司内大多数业务的产品报表、运营分析、数据挖掘等的存储和计算都是在 TDW 中进行，内容库数据平台的数据加工链路同样是在腾讯数据仓库 TDW 上构建的。截止目前，内容库数据平台的数据架构已经从 1.0 演进到了 4.0 ，经历了分析引擎从 ClickHouse 加速层：不同的标签跟指标特性不同、更新频率也各不相同。由于 ClickHouse 目前更擅长处理宽表场景，无区别将所有数据导入大宽表生成天的分区将造成存储资源的浪费，维护成本也将随之升高。  应用层：ClickHouse 采用的是计算和存储节点强耦合的架构，架构复杂，组件依赖严重，牵一发而动全身，容易出现集群稳定性问题，对于我们来说，同时维护 ClickHouse 和 Elasticsearch 列更新。  支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查询分析。  导入方式多样，支持从 HDFS/S3 等远端存储批量导入，也支持读取 MySQL Binlog 以及订阅消息队列 Kafka 中的数据，还可以通过 Flink Connector 实时/批次同步数据源（MySQL,Oracle,PostgreSQL

0 码力 | 12 页 | 1.55 MB | 1 年前
3
百度智能云 Apache Doris 文档

前加上关键词："FILE:"。关于如何创建文件，请参阅 CREATE FILE 命令文档。更多支持的自定义参数，请参阅 librdkafka 的官方 CONFIGURATION 文档中，client 端的配置项。如： 1. 使用 SSL 连接 Kafka 时，需要指定以下参数：其中：和为必须，用于指明连接方式为 SSL，以及 CA 证书的位置。如果 Kafka server 端开启了最佳实践 1. 关于指定消费的 Partition 和 Offset Doris 支持指定 Partition 和 Offset 开始消费，还支持了指定时间点进行消费的功能。这里说明下对应参数的配置关系。有三个相关参数：：指定待消费的 partition 列表，如："0, 1, 2, 3"。：指定每个分区的起始offset，必须和列表个数对应。如："1000, 1000, 2000 INTO OUTFILE SELECT INTO OUTFILE Description Description 该命令用于将 SQL 产出的结果集导出到本地磁盘，或通过 Broker 导出到远端存储上。任意查询语句。 RESTORE RESTORE SNAPSHOT SNAPSHOT example_db1 example_db1..``snapshot_1 snapshot_1``

0 码力 | 203 页 | 1.75 MB | 1 年前
3
Apache Doris 在美团外卖数仓中的应用实践

数据爆炸，每日使用最新维度对历史数据进行回溯计算。在Kylin的MOLAP模式下存在如下问题：历史数据每日刷新，失去了增量的意义。每日回溯历史数据量大，10亿+的历史数据回溯。数据计算耗时3小时+，存储1TB+，消耗大量计算存储资源，同时严重影响SLA的稳定性。预计算的大量历史数据实际使用率低下，实际工作中对历史的回溯80%集中在近1个月左右，但为了应对所有需求场景，业务要求计算近半年以上的历史。不支持明细数据的查询。案的比较： MOLAP模式的劣势 1. 应用层模型复杂，根据业务需要以及Kylin生产需要，还要做较多模型预处理。这样在不同的业务场景中，模型的利用率也比较低。 2. Kylin配置过程繁琐，需要配置模型设计，并配合适当的“剪枝”策略，以实现计算成本与查询效率的平衡。 3. 由于MOLAP不支持明细数据的查询，在“汇总+明细”的应用场景中，明细数据需要同步到 DBMS引擎来响应交互，增加了生产的运维成本。度下去重指标的实时统计，效率较高。 ROLAP ：基于实时的大规模并行计算，对集群的要求较高。MPP引擎的核心是通过将数据分散，以实现 CPU、IO、内存资源的分布，来提升并行计算能力。在当前数据存储以磁盘为主的情况下，数据S can需要的较大的磁盘IO，以及并行导致的高CPU，仍然是资源的短板。因此，高频的大规模汇总统计，并发能力将面临较大挑战，这取决于集群硬件方面的并行计算能力。传统去重算法需要

0 码力 | 8 页 | 429.42 KB | 1 年前
3
Doris的数据导入机制以及原子性保证

• 随百度业务飞速发展，对 Doris的性能、可用性、拓展性进行了全面升级 • 承担百度所有统计报表业务 2012 01 Doris简介 04 05 06 • 全新的数据模型，查询存储效率大幅提升 • MPP框架，支持分布式计算 2013 • 精简架构、统一用户客户端，实现高可用 • 正式开始对外提供服务 2015 • 正式开源 • 希望能帮助更多人、让更多 2018 07 01 Doris简介产品特性简单易用扩展性强性能卓越高可用 • 高度兼容MySQL • 支持在线表结构变更 • 支持集群动态伸缩 • 高度集成，不依赖于外部存储系统 • 架构优雅，单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询，100台集群可达10w QPS • 流式导入单节点100MB/s，小批量导入毫秒延迟 • 数据、元数据高可用，线上稳定服务6年高度兼容MySQL协议 • 主从架构，不依赖任何其他组件 • FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介导入的问题 02 典型应用场景——OLAP分析数据源数据应用数据存储对象存储BOS OLTP WEB端日志移动端日志本地文件数据分析业务应用实时大屏多维报表自助查询用户画像

0 码力 | 33 页 | 21.95 MB | 1 年前
3

共 4 条前往

页

SelectDB 案例 ClickHouse Apache Doris 百度智能文档 Apache Doris 美团数据导入机制以及原子保证

分类

语言

格式

SelectDB案例从 ClickHouse 到 Apache Doris

百度智能云 Apache Doris 文档

Apache Doris 在美团外卖数仓中的应用实践

Doris的数据导入机制以及原子性保证

分类

语言

格式

SelectDB案例 从 ClickHouse 到 Apache Doris

百度智能云 Apache Doris 文档

Apache Doris 在美团外卖数仓中的应用实践

Doris的数据导入机制以及原子性保证

SelectDB案例从 ClickHouse 到 Apache Doris