百度智能云 Apache Doris 文档最佳实践 最佳实践 1. 同一数据库下只能有一个正在执行的恢复操作。 2. 可以将仓库中备份的表恢复替换数据库中已有的同名表,但须保证两张表的表结构完全一致。表结构包括:表名、列、分 区、物化视图等等。 3. 当指定恢复表的部分分区时,系统会检查分区范围是否能够匹配。 4. 恢复操作的效率: 在集群规模相同的情况下,恢复操作的耗时基本等同于备份操作的耗时。如果想加速恢复操作,可以先通过设置 分区,以及表 到仓库 中,并设置超时时间。 Keywords Keywords 最佳实践 最佳实践 1. 同一个数据库下只能进行一个备份操作。 2. 备份操作会备份指定表或分区的基础表及 物化视图。并且仅备份一副本。 3. 备份操作的效率 备份操作的效率取决于数据量、Compute Node 节点数量以及文件数量。备份数据分片所在的每个 Compute Node 都会参与 备份操作的上传阶段。节点数量越多,上传的效率越高。 留,也可能会被清除。比如在百度对象存储(BOS)中,通过 rename 操作将一个目录中的最后一个文件移走后,该目录也 会被删除。如果该目录没有被清除,用户可以手动清除。 Export 作业只会导出 Base 表的数据,不会导出物化视图的数据。 Export 作业会扫描数据,占用 IO 资源,可能会影响系统的查询延迟。 一个集群内同时运行的 Export 作业最大个数为 5。之后提交的只作业将会排队。 STREAM-LOAD0 码力 | 203 页 | 1.75 MB | 1 年前3
SelectDB案例 从 ClickHouse 到 Apache Doris 加速层:在数仓中构建的大宽表导入到加速层中,Clickhouse 作为分析引擎, Elasticsearch 作为搜索/圈选引擎。 应用层:根据场景创建 DataSet,作为逻辑视图从大宽表选取所需的标签与指标,同 时可以二次定义衍生的标签与指标。 存在的问题: 数仓层:不支持部分列更新,当上游任一来源表产生延迟,均会造成大宽表延迟, 进而导致数据时效性下降。 加速层:从语义层接收配置、触发导入任务,比如加速哪些指标与标签均由语义层 指导。 应用层:向语义层发起逻辑查询,由语义层选择引擎,生成物理 SQL。 架构优势: 可以形成统一视图,对于核心指标和标签的定义进行统一查看及管理。 应用层与物理引擎完成解耦,可进一步对更加灵活易用的架构进行探索:如何对相 关指标和标签进行加速,如何在时效性和集群的稳定性之间平衡等。 存在的问题: Doris 存储热数据,Iceberg 存储冷数据,利用 Doris 湖仓一体化能力简化查询。 对高频出现的标签/指标组合,通过 Doris 的物化视图进行预计算,提升查询的性能。 探索 Doris 应用于数仓计算任务,利用物化视图简化代码逻辑,并提升核心数据的 时效性。0 码力 | 12 页 | 1.55 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践较多的预处理伴随着较高的生产成本。 ROLAP模式的优势 1. 应用层模型设计简化,将数据固定在一个稳定的数据粒度即可。比如商家粒度的星形模型 ,同时复用率也比较高。 2. App层的业务表达可以通过视图进行封装,减少了数据冗余,同时提高了应用的灵活性, 降低了运维成本。 3. 同时支持“汇总+明细”。 4. 模型轻量标准化,极大的降低了生产成本。 综上所述,在变化维、非预设维、细粒度统计的应 可靠的调度能力:提供5、10、15、30分钟的调度保障能力。 Lambda架构简化:实时数据与离线数据更好的在Doris中进行融合,灵活支撑应用。 高效的OLAP交互 :支撑业务的灵活查询访问,业务层通过视图进行逻辑封装直接复用汇总层多维模型,提高了开 发效率,减少了运维成本。 相比Storm、Flink中的窗口计算,准实时DB微批的优势: Doris引擎在美团的重要改进 Join 谓词下推的传递性优化0 码力 | 8 页 | 429.42 KB | 1 年前3
共 3 条
- 1













