PieCloudDB:云原生分布式虚拟数仓的诞生之旅⼀个S3⽂件内所有数据MVCC可⻅性⼀致 (U/D/I写新⽂件). • ⾏列混存,Cache访问友好. • 附带元数据⽤于data skipping、预聚集等. • Encode/Compress • Encryption (TDE) • Large-size column • 访问时候内存Arrow Format • Medium-size block size • …... @2022 OpenPie. All 构建之路 - 数据访问加速 • S3访问考虑(提升性能 & 降低成本) • 使⽤缓存,⻓远来说分布式缓存. • 虚拟数仓:⼀致性Hash存储缓存⽂件. • Data Skipping (⽐如Block Skipping,预聚集,etc). • S3访问通⽤优化:并⾏化、预读、异步、Mpp引擎"steal". • C++抽象接⼝,访问更多的storage provider (HDFS, NAS, 没有耗时的2PC分布式事务. @2022 OpenPie. All rights reserved. OpenPie Confidential 成⻓之路 • 性能变好 • 聚集下推⽀持. • 预计算⽀持. • Block skipping初步⽀持. • 元数据系统持续的性能优化 • ... @2022 OpenPie. All rights reserved. OpenPie Confidential 成⻓之路0 码力 | 24 页 | 2.01 MB | 1 年前3
PieCloudDB Database 产品白皮书 了包括聚集下准、Block Skipping 等功能模块,大大缩短执行时间,高效的数据查询提高了数据分析的实时性。 1. 票集下推 在执行聚集函数的过程中,查询优化器会把聚集操作下推到连接操作之前去执行,可以极大地减少连 接操作需要处理的数据量,使得查询性能显著提升。在很多分析型场景下,聚集下推会取得百倍或千 售的性能提升。 2.Block skipping PiecloudDB 实现了Block Sk Skipping的优化机制,在数据库运行查询语句时,通过预计算每个块block) 中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性能。此外,PiecloudDB PiecloudDB 还支持查询优化器Orca。Orca是一款开源的、基于Cascades 模型的模块化查询优化器, 可以帮助用户对SQL进行优化,生成高效的查询计划。 此外,PieCloudDB 兼容 ORCA 优化器 (JANM) ,实现了基于对象存储的行列混存结构 。行列混存结合了行存和 列存的优势,允许面向列的压缩方案,压缩率更高,节省存储空间,跳过不必要的列的扫描,提高查询效率; 在读取 少量数据时,提高Cache命中率,减少MO 次数。 pieCloudDB实现了存储中立,支持公有云、私有云、混合云。PieCloudDB 除支持自己的存储格式,还支持部署在存 储系统的开源格式,例如 Parquet。 此外,PieCloudDB0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书低了元数据访问的网络延迟,加快了用户数据的访问速度。 PieCloudDB 对数据查询的执行流程在查询执行器中进行了全链路的优化,完整支持 TPC-H 和 TPC-DS 等测试,实现 了包括聚集下推、Block Skipping 等功能模块,大大缩短执行时间,高效的数据查询提高了数据分析的实时性。 此外,PieCloudDB 兼容 ORCA 优化器(ORCA 是一款开源的、基于 Cascades 接操作需要处理的数据量,使得查询性能显著提升。在很多分析型场景下,聚集下推会取得百倍或千 倍的性能提升。 2. Block Skipping PieCloudDB 实现了Block Skipping的优化机制,在数据库运行查询语句时,通过预计算每个块(block) 中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性能。此外,PieCloudDB PieCloudDB 打造了全新的存储引擎--简墨(JANM),实现了基于对象存储的行列混存结构。行列混存结合了行存和 列存的优势,允许面向列的压缩方案,压缩率更高,节省存储空间;跳过不必要的列的扫描,提高查询效率;在读取 少量数据时,提高Cache命中率,减少 I/O 次数。 PieCloudDB实现了存储中立,支持公有云、私有云、混合云。PieCloudDB 除支持自己的存储格式,还支持部署在存 储系统的开源格式,例如 Parquet。0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库OpenPie. All rights reserved. OpenPie Confidential 构建新一代云原生存储引擎 • 完备的事务 • Block文件级别的MVCC实现 • 优化器与执行器的演进 • 向量化 • 文件查询裁剪(Block Skipping) • 聚集下推扫描(PreAgg Pushdown Scan) @2022 OpenPie. All rights reserved 全新的存储引擎简墨(JANM) • 基于对象存储的行列混存架构 • 压缩比更好 • Cache命中率更高 • 降低CPU使用率 @2022 OpenPie. All rights reserved. OpenPie Confidential 全链路优化 • 高效的分布式优化器 • 聚集下推 • 预计算 • Block Skipping @2022 OpenPie. All rights reserved0 码力 | 45 页 | 1.32 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现基础,优化重构实现适⽤于 多集群架构 ⽤户数据存储引擎 • PAX(⾏列混存)配以⾼效压缩 • Block⽂件为⼀个存储(MVCC)单位 • 辅助信息存储⽤于计算优化 • 设计考虑: • ⾼效和精准的统计信息收集 • 存储和计算成本 • 各种计算优化 • SIMD, Cache Line • Data Skipping (本地查询和远程读取) • 预聚集 • ...... 存储中⽴0 码力 | 31 页 | 1.43 MB | 1 年前3
PieCloudDB 的云原生之路高效的文件格式,可在节省网络请求的同时提高计算效率。 全新的优化器「达奇」 PieCloudDB 可以更智能高效地生成统计信息,并生成更高 效的查询计划,达奇优化器支持聚集下推,预计算,Block Skipping 等高级特性,全面满足各种复杂的分析查询需求。 IvorySQL开源数据库社区 文本 时间序列分析 机器学习 数据转换 深度学习 传统BI 地理信息 PieCloudDB 三级密钥 o 实时加解密 构建新一代云原生存储引擎 IvorySQL开源数据库社区 全链路优化 • 全新的存储引擎简墨(JANM) ⚬ 基于对象存储的行列混存架构 ⚬ 压缩比更好 ⚬ Cache 命中率更高 ⚬ 降低 CPU 使用率 IvorySQL开源数据库社区 04 优化器 IvorySQL开源数据库社区 PieCloudDB 达奇是一个基于 eMPP 架构的云原生分布式优化器,它可以0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路高效的文件格式,可在节省⽹络请求的同时提⾼计算效率。 全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息,并⽣成更⾼ 效的查询计划,达奇优化器支持聚集下推,预计算,Block Skipping等高级特性,全面满足各种复杂的分析查询需求。 @2022 OpenPie. All rights reserved. OpenPie Confidential 文本 时间序列分析 All rights reserved. OpenPie Confidential 全链路优化 • 全新的存储引擎简墨(JANM) • 基于对象存储的行列混存架构 • 压缩比更好 • Cache命中率更高 • 降低CPU使用率 @2022 OpenPie. All rights reserved. OpenPie Confidential D a t a C o m p u t i0 码力 | 44 页 | 1.64 MB | 1 年前3
PieCloudDB Database V2.8 Release Note发布日期: 2023 年 10 月 内 核 l 回收站功能 实现回收站来跟踪逻辑上被删除(TRUNCATE/DROP/ALTER 等)的表,这些 表对应的 S3 Block 文件在超过保留期限后会被 autovacuum 删除。 l PieCloudDB 全局缓存系统 n 支持在计算节点为一个查询缓存所需的目录(catalog)信息,在每个虚 拟数仓中 全局缓存系统中添加本地缓存。 l HLL(HyperLogLog)压缩 当 HLL 比较稀疏时支持使用游程编码,可以节省 60%-95% 的存储空间。 2 l 优化 Block Skipping 实现 JANM 的虚拟索引。对于某些特殊的访问方法,表的数据文件/块已经包 含可以用作索引的信息,通过虚拟索引不仅可以利用这些信息来提高性能,而 且能减少维护开销。 制 JANM 访问方法中的 Toast。 n 新增建表选项 page_size,设置生成新 Page 的大小限制,以兆字节为单 位。 n 新增建表选项 block_file_size,设置生成新文件的 Block 文件大小限制, 以兆字节为单位。 n 新增建表选项 num_stat_col,控制文件内统计列数,为每个 JANM 文件 节省 CPU 和元数据大小。默认值为0 码力 | 4 页 | 144.49 KB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现OpenPie. All rights reserved. OpenPie Confidential • 使用mstore作为辅助表实现mvcc • 每个block在辅助表中对应一个tuple • update/delete生成一个新的block @2022 OpenPie. All rights reserved. OpenPie Confidential @2022 OpenPie. All All rights reserved. OpenPie Confidential branch t2 from t1; 只需要复制辅助表 可以从某个历史版本branch 通过引用计数判断block是否删除 只有在vacuum和branch操作时需要访问引用计数 @2022 OpenPie. All rights reserved. OpenPie Confidential • 数据的载体对象存储作为整个云的基0 码力 | 43 页 | 1.14 MB | 1 年前3
PieCloudDB Database V2.1 版本说明核 • 聚集下推功能得到增强:通过把聚集操作下推到连接操作之前去执行,极大的减 少连接操作需要处理的数据量,使得查询性能显著提升。 • 实现了 Block Skipping 的优化机制:数据库运行查询语句时,通过计算每个块 (block)中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性 能。 • 极速 Analyze(Smart Analyze): PieCloudDB0 码力 | 3 页 | 257.15 KB | 1 年前3
共 13 条
- 1
- 2













