Block Cache - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PieCloudDB：云原生分布式虚拟数仓的诞生之旅

⼀个S3⽂件内所有数据MVCC可⻅性⼀致 (U/D/I写新⽂件）. • ⾏列混存，Cache访问友好. • 附带元数据⽤于data skipping、预聚集等. • Encode/Compress • Encryption (TDE) • Large-size column • 访问时候内存Arrow Format • Medium-size block size • …... @2022 OpenPie. All 构建之路 - 数据访问加速 • S3访问考虑（提升性能 & 降低成本） • 使⽤缓存，⻓远来说分布式缓存. • 虚拟数仓：⼀致性Hash存储缓存⽂件. • Data Skipping (⽐如Block Skipping，预聚集，etc）. • S3访问通⽤优化：并⾏化、预读、异步、Mpp引擎"steal". • C++抽象接⼝，访问更多的storage provider (HDFS, NAS, 没有耗时的2PC分布式事务. @2022 OpenPie. All rights reserved. OpenPie Confidential 成⻓之路 • 性能变好 • 聚集下推⽀持. • 预计算⽀持. • Block skipping初步⽀持. • 元数据系统持续的性能优化 • ... @2022 OpenPie. All rights reserved. OpenPie Confidential 成⻓之路

0 码力 | 24 页 | 2.01 MB | 1 年前
3
PieCloudDB Database 产品白皮书

了包括聚集下准、Block Skipping 等功能模块，大大缩短执行时间，高效的数据查询提高了数据分析的实时性。 1. 票集下推在执行聚集函数的过程中，查询优化器会把聚集操作下推到连接操作之前去执行，可以极大地减少连接操作需要处理的数据量，使得查询性能显著提升。在很多分析型场景下，聚集下推会取得百倍或千售的性能提升。 2.Block skipping PiecloudDB 实现了Block Sk Skipping的优化机制，在数据库运行查询语句时，通过预计算每个块block) 中列聚集信息，在执行期间跳过非必要的数据块，减少数据读取量提高查询性能。此外，PiecloudDB PiecloudDB 还支持查询优化器Orca。Orca是一款开源的、基于Cascades 模型的模块化查询优化器, 可以帮助用户对SQL进行优化，生成高效的查询计划。此外，PieCloudDB 兼容 ORCA 优化器 (JANM) ，实现了基于对象存储的行列混存结构。行列混存结合了行存和列存的优势，允许面向列的压缩方案，压缩率更高，节省存储空间，跳过不必要的列的扫描，提高查询效率; 在读取少量数据时，提高Cache命中率，减少MO 次数。 pieCloudDB实现了存储中立，支持公有云、私有云、混合云。PieCloudDB 除支持自己的存储格式，还支持部署在存储系统的开源格式，例如 Parquet。此外，PieCloudDB

0 码力 | 17 页 | 2.68 MB | 1 年前
3
云原生虚拟数仓PieCloudDB Database产品白皮书

低了元数据访问的网络延迟，加快了用户数据的访问速度。 PieCloudDB 对数据查询的执行流程在查询执行器中进行了全链路的优化，完整支持 TPC-H 和 TPC-DS 等测试，实现了包括聚集下推、Block Skipping 等功能模块，大大缩短执行时间，高效的数据查询提高了数据分析的实时性。此外，PieCloudDB 兼容 ORCA 优化器（ORCA 是一款开源的、基于 Cascades 接操作需要处理的数据量，使得查询性能显著提升。在很多分析型场景下，聚集下推会取得百倍或千倍的性能提升。 2. Block Skipping PieCloudDB 实现了Block Skipping的优化机制，在数据库运行查询语句时，通过预计算每个块(block) 中列聚集信息，在执行期间跳过非必要的数据块，减少数据读取量提高查询性能。此外，PieCloudDB PieCloudDB 打造了全新的存储引擎--简墨（JANM），实现了基于对象存储的行列混存结构。行列混存结合了行存和列存的优势，允许面向列的压缩方案，压缩率更高，节省存储空间；跳过不必要的列的扫描，提高查询效率；在读取少量数据时，提高Cache命中率，减少 I/O 次数。 PieCloudDB实现了存储中立，支持公有云、私有云、混合云。PieCloudDB 除支持自己的存储格式，还支持部署在存储系统的开源格式，例如 Parquet。

0 码力 | 17 页 | 2.02 MB | 1 年前
3
PieCloudDB：基于PostgreSQL的eMPP云原生数据库

OpenPie. All rights reserved. OpenPie Confidential 构建新一代云原生存储引擎 • 完备的事务 • Block文件级别的MVCC实现 • 优化器与执行器的演进 • 向量化 • 文件查询裁剪（Block Skipping） • 聚集下推扫描（PreAgg Pushdown Scan） @2022 OpenPie. All rights reserved 全新的存储引擎简墨（JANM） • 基于对象存储的行列混存架构 • 压缩比更好 • Cache命中率更高 • 降低CPU使用率 @2022 OpenPie. All rights reserved. OpenPie Confidential 全链路优化 • 高效的分布式优化器 • 聚集下推 • 预计算 • Block Skipping @2022 OpenPie. All rights reserved

0 码力 | 45 页 | 1.32 MB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

基础，优化重构实现适⽤于多集群架构⽤户数据存储引擎 • PAX（⾏列混存）配以⾼效压缩 • Block⽂件为⼀个存储(MVCC)单位 • 辅助信息存储⽤于计算优化 • 设计考虑： • ⾼效和精准的统计信息收集 • 存储和计算成本 • 各种计算优化 • SIMD, Cache Line • Data Skipping (本地查询和远程读取） • 预聚集 • ...... 存储中⽴

0 码力 | 31 页 | 1.43 MB | 1 年前
3
PieCloudDB 的云原生之路

高效的文件格式，可在节省网络请求的同时提高计算效率。全新的优化器「达奇」 PieCloudDB 可以更智能高效地生成统计信息，并生成更高效的查询计划，达奇优化器支持聚集下推，预计算，Block Skipping 等高级特性，全面满足各种复杂的分析查询需求。 IvorySQL开源数据库社区文本时间序列分析机器学习数据转换深度学习传统BI 地理信息 PieCloudDB 三级密钥 o 实时加解密构建新一代云原生存储引擎 IvorySQL开源数据库社区全链路优化 • 全新的存储引擎简墨（JANM） ⚬ 基于对象存储的行列混存架构 ⚬ 压缩比更好 ⚬ Cache 命中率更高 ⚬ 降低 CPU 使用率 IvorySQL开源数据库社区 04 优化器 IvorySQL开源数据库社区 PieCloudDB 达奇是一个基于 eMPP 架构的云原生分布式优化器，它可以

0 码力 | 47 页 | 1.80 MB | 1 年前
3
PieCloudDB云原生数仓虚拟化之路

高效的文件格式，可在节省⽹络请求的同时提⾼计算效率。全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息，并⽣成更⾼效的查询计划，达奇优化器支持聚集下推，预计算，Block Skipping等高级特性，全面满足各种复杂的分析查询需求。 @2022 OpenPie. All rights reserved. OpenPie Confidential 文本时间序列分析 All rights reserved. OpenPie Confidential 全链路优化 • 全新的存储引擎简墨（JANM） • 基于对象存储的行列混存架构 • 压缩比更好 • Cache命中率更高 • 降低CPU使用率 @2022 OpenPie. All rights reserved. OpenPie Confidential D a t a C o m p u t i

0 码力 | 44 页 | 1.64 MB | 1 年前
3
PieCloudDB Database V2.8 Release Note

发布日期： 2023 年 10 月内核 l 回收站功能实现回收站来跟踪逻辑上被删除（TRUNCATE/DROP/ALTER 等）的表，这些表对应的 S3 Block 文件在超过保留期限后会被 autovacuum 删除。 l PieCloudDB 全局缓存系统 n 支持在计算节点为一个查询缓存所需的目录（catalog）信息，在每个虚拟数仓中全局缓存系统中添加本地缓存。 l HLL（HyperLogLog）压缩当 HLL 比较稀疏时支持使用游程编码，可以节省 60%-95% 的存储空间。 2 l 优化 Block Skipping 实现 JANM 的虚拟索引。对于某些特殊的访问方法，表的数据文件/块已经包含可以用作索引的信息，通过虚拟索引不仅可以利用这些信息来提高性能，而且能减少维护开销。制 JANM 访问方法中的 Toast。 n 新增建表选项 page_size，设置生成新 Page 的大小限制，以兆字节为单位。 n 新增建表选项 block_file_size，设置生成新文件的 Block 文件大小限制，以兆字节为单位。 n 新增建表选项 num_stat_col，控制文件内统计列数，为每个 JANM 文件节省 CPU 和元数据大小。默认值为

0 码力 | 4 页 | 144.49 KB | 1 年前
3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现

OpenPie. All rights reserved. OpenPie Confidential • 使用mstore作为辅助表实现mvcc • 每个block在辅助表中对应一个tuple • update/delete生成一个新的block @2022 OpenPie. All rights reserved. OpenPie Confidential @2022 OpenPie. All All rights reserved. OpenPie Confidential branch t2 from t1; 只需要复制辅助表可以从某个历史版本branch 通过引用计数判断block是否删除只有在vacuum和branch操作时需要访问引用计数 @2022 OpenPie. All rights reserved. OpenPie Confidential • 数据的载体对象存储作为整个云的基

0 码力 | 43 页 | 1.14 MB | 1 年前
3
PieCloudDB Database V2.1 版本说明

核 • 聚集下推功能得到增强：通过把聚集操作下推到连接操作之前去执行，极大的减少连接操作需要处理的数据量，使得查询性能显著提升。 • 实现了 Block Skipping 的优化机制：数据库运行查询语句时，通过计算每个块（block）中列聚集信息，在执行期间跳过非必要的数据块，减少数据读取量提高查询性能。 • 极速 Analyze（Smart Analyze）： PieCloudDB

0 码力 | 3 页 | 257.15 KB | 1 年前
3

共 13 条前往

页

分类

语言

格式

PieCloudDB：云原生分布式虚拟数仓的诞生之旅

PieCloudDB Database 产品白皮书

云原生虚拟数仓PieCloudDB Database产品白皮书

PieCloudDB：基于PostgreSQL的eMPP云原生数据库

云原生数据库 PieCloudDB eMPP架构设计与实现

PieCloudDB 的云原生之路

PieCloudDB云原生数仓虚拟化之路

PieCloudDB Database V2.8 Release Note

云原生虚拟数仓 PieCloudDB 的架构和关键模块实现

PieCloudDB Database V2.1 版本说明