云原生数据库PieCloudDB 性能优化之路基础数据计算领域的世界级高科技创新驱动机构 杭州拓数派科技发展有限公司(又称“OpenPie”),以“Data Computing for New Discoveries”「数据计算,只为新发现」为使命, 成立后的短短10个月时间内,完成了包括头部产业基金、东吴证券、元 禾重元和政府科创平台在内的连续三轮战略融资。 旗下云原生分析型数据库 PieCloudDB,以云计算架构为设计基础,首 创全新 eMPP Contents 录 目 01 • 预处理阶段 • 通过逻辑上的等价变换,把查询树转换为更加简单高效的等式 • 分发约束条件,收集外连接信息等 • 扫描/连接优化阶段 • 主要处理扫描和连接操作 • 扫描/连接之外的优化阶段 • 主要处理除扫描和连接之外的其他操作,例如聚集、排序等 • 后处理阶段 • 主要把前面的处理结果转换成执行器期望的形式 • 简化表达式 • 简化连接树 • 把 Materialize -> Seq Scan on bar (5 rows) • 主要处理查询语句中FROM和WHERE部分 • 同时也会考虑到ORDER BY的信息 • 代价驱动 • 为基表生成扫描路径,并计算扫描路径的代价和结果集大小 • 搜索整个连接顺序空间,为连接操作生成连接路径 • O(n!) • 动态规划 • 遗传算法 • 考虑外连接对连接顺序的限制 (A leftjoin B on0 码力 | 26 页 | 711.44 KB | 1 年前3
πDataCS赋能工业软件创新与实践业中唯⼀“年度创业⼈物” 打造⼤模型时代 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派⼊选中国信通院“铸基计划”「⾼质量数字化 转型产品及服务全景图」 拓数派再次携WAIC创建智能驾驶科技分会 杭州萧⼭区政府“⼀事⼀议”支持政策获 批 9月 拓数派上榜《毕马威中国-未来独角兽 ⼈⼯智能创新 双30企业(长江三角洲地区)》 证用户的实时性需求。PieCloudDB针对底层对象存储设计了 ⾼效的⽂件格式,可在节省⽹络请求的同时提⾼计算效率。 全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息,并⽣成更⾼ 效的查询计划,达奇优化器支持聚集下推,预计算,Block Skipping等⾼级特性,全面满⾜各种复杂的分析查询需求。 @2024 OpenPie. All rights reserved. OpenPie 资源需求, 虚拟数仓可以在线弹性的扩缩容,在此图示例中,执⾏器可以从原来的3 个变成4个,缩容也是同样的原理; 4. 虚拟数仓在执⾏具体的业务应用请求时,协调器会去统筹整个计算资源, 将优化后的SQL下发⾄执⾏器,执⾏器负责具体的SQL执⾏,多个执⾏器 之间并⾏的计算,最终结果需要返回给协调器,由协调器最终反馈给业 务应用; 5. 多个执⾏器并⾏处理数据时,会存在⼀个现象,其中⼀个执⾏器⼯作中0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB Database 产品白皮书 数据仓库架构存在“木桶效应”,集群整体执行速度取决于最“短板的”节点的性能。因此,一个节点的 表现往往会 “拖幸”整个集群的性能,导致查询速度变慢。 随卷时间的推移,业务的增长,企业往往需要在1-2年后 对集群增加计算节点,此时,无论新的计算节点性能如何好,集群总体性能都会受制于老的节点。因此真实生产环境 中,常常见到客户在需要扩容时,采取重新新建集群的方式。 数据瑰岛 随着业务的发展,数据量的 并发、高可用以 及用户权限等功能; 2. 计算节点: 无状态节点 (包括 Coordinator 和 Executer) ,主要负责接收用户请求和数据计算,支持 动态弹性伸缩,提供数据查询 、执行计划、查询优化、数据加载、连接管理、并行计算以及资源隔离 等功能; 3. 存储节点; 存算分离架构,支持本地存储和云存储,推荐采用对象存储,提供数据压缩、数据加密、 多模存储以及多级缓存等功能; 4 还支持查询优化器Orca。Orca是一款开源的、基于Cascades 模型的模块化查询优化器, 可以帮助用户对SQL进行优化,生成高效的查询计划。 此外,PieCloudDB 兼容 ORCA 优化器 (DORCA 是一款开源的、基于 Cascades 模型的模块化查询优化器,可以帮助用 户对 SQL 进行优化,生成高效的查询计划) 。 * 原生多租户支持 PieCloudDB 通过独特的设计,具备原生多租户能力,每个租户有自己的数据库和虚拟数仓。不同的租户互相隔离0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书数据仓库架构存在“木桶效应”,集群整体执行速度取决于最“短板的”节点的性能。因此,一个节点的 表现往往会 “拖垮”整个集群的性能,导致查询速度变慢。 随着时间的推移,业务的增长,企业往往需要在1-2年后 对集群增加计算节点,此时,无论新的计算节点性能如何好,集群总体性能都会受制于老的节点。因此真实生产环境 中,常常见到客户在需要扩容时,采取重新新建集群的方式。 数 据 孤 岛 随着业务的 2. 计算节点: 无状态节点(包括 Coordinator 和 Executer),主要负责接收用户请求和数据计算,支持 动态弹性伸缩,提供数据查询、执行计划、查询优化、数据加载、连接管理、并行计算以及资源隔离 等功能; 3. 存储节点: 存算分离架构,支持本地存储和云存储,推荐采用对象存储,提供数据压缩、数据加密、 的实时性。 此外,PieCloudDB 兼容 ORCA 优化器(ORCA 是一款开源的、基于 Cascades 模型的模块化查询优化器,可以帮助用 户对 SQL 进行优化,生成高效的查询计划)。 PieCloudDB 通过独特的设计,具备原生多租户能力,每个租户有自己的数据库和虚拟数仓。不同的租户互相隔离, 租户之间数据和元数据彼此都不可见。每个租户可以按需创建不同得角色和用户,不同用户可以拥有不同的权限。0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库Confidential 构建新一代云原生存储引擎 • 完备的事务 • Block文件级别的MVCC实现 • 优化器与执行器的演进 • 向量化 • 文件查询裁剪(Block Skipping) • 聚集下推扫描(PreAgg Pushdown Scan) @2022 OpenPie. All rights reserved. OpenPie Confidential D a t a C o m p u 可以为海量数据集上的复杂OLAP查询提供最优的查询计划。 • 分布式优化器 • 处理复杂OLAP查询 • 云原生优化器 PieCloudDB Optimizer @2022 OpenPie. All rights reserved. OpenPie Confidential 分布式优化器 充分考虑 分布式架构的特点 计算节点间 并行执行 多个更小的 计划单元 @2022 OpenPie.0 码力 | 45 页 | 1.32 MB | 1 年前3
PieCloudDB Database V2.8 Release Note文件存储空间。 n 支持指定 JAMN 文件数据压缩方法,包括 None、PGLZ 或者 ZSTD。使用 ZSTD 压缩方法可以大幅度提高数据文件压缩率,降低数据文件存储成本。 n 支持预聚集块扫描节点,对 JAMN 文件块中的数据进行预聚集计算。 n 增强 JANM Data Skipping 对 IN 条件的处理能力。 n 新增 GUC 参数 pdb_enable_janm_toast,控制 插件 支持使用 pgaudit 插件生成审计日志。 l Kafka 接口 n 支持获取 Kafka FDW 统计数据。 n Kafka FDW 支持 JSON 格式。 l 执行计划信息 支持在 EXPLAIN ANALYZE VERBOSE 执行结果中显示调度相关状态信息。 4 l 用户定义函数 UDF n 新增 janm_page_size_read,用以获取0 码力 | 4 页 | 144.49 KB | 1 年前3
PieCloudDB Database 社区版集群安装部署手册 V2.1环境检查: 1. kubectl get nodes -l node-role.kubernetes.io/control- plane| awk '{print $1}' 请创建文件目录后再进行部署。 如下: 1. - Foundationdb: /var/lib/fdb/data 2. - Etcd: /var/lib/etcd/data 3. - minIO: /var/lib/minio/data ["native.cgroupdriver=systemd"], 8. "insecure-registries": ["10.24.31.157"] 9. } 添加完成后,需要重启 docker 服务,执行如下命令: 1. systemctl restart docker 3.4 添加节点角色 用 root 用户在 master 节点执行如下命令: 环境检查: 1. kubectl get nodes -l node-role.kubernetes.io/control- plane| awk '{print $1}' 请创建文件目录后再进行部署。 如下: 1. - Foundationdb: /var/lib/fdb/data 2. - Etcd: /var/lib/etcd/data 3. - minIO: /var/lib/minio/data0 码力 | 42 页 | 1.58 MB | 1 年前3
PieCloudDB 的云原生之路基础数据计算领域的世界级高科技创新驱动机构 杭州拓数派科技发展有限公司(又称“OpenPie”),以 “Data Computing for New Discoveries”「数据计算,只为新 发现」为使命,成立后的短短10个月时间内,完成了包括头部 产业基金、东吴证券、元禾重元和政府科创平台在内的连续三 轮战略融资。 旗下云原生分析型数据库 PieCloudDB,以云计算架构为设 计基础,首创全新 eMPP 证用户的实时性需求。PieCloudDB 针对底层对象存储设计了 高效的文件格式,可在节省网络请求的同时提高计算效率。 全新的优化器「达奇」 PieCloudDB 可以更智能高效地生成统计信息,并生成更高 效的查询计划,达奇优化器支持聚集下推,预计算,Block Skipping 等高级特性,全面满足各种复杂的分析查询需求。 IvorySQL开源数据库社区 文本 时间序列分析 机器学习 数据转换 深度学习 IvorySQL开源数据库社区 04 优化器 IvorySQL开源数据库社区 PieCloudDB 达奇是一个基于 eMPP 架构的云原生分布式优化器,它可以 为海量数据集上的复杂 OLAP 查询提供最优的查询计划。 • 分布式优化器 • 处理复杂 OLAP 查询 • 云原生优化器 PieCloudDB 优化器「达奇」 IvorySQL开源数据库社区 处理复杂OLAP查询 多表连接的最 优顺序搜索0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路Confidential 杭州拓数派科技发展有限公司(又称“OpenPie”),以“Data Computing for New Discoveries”「数据计算,只为新发现」为使命, 成立后的短短10个月时间内,完成了包括头部产业基金、东吴证券、元 禾重元和政府科创平台在内的连续三轮战略融资。 旗下云原生分析型数据库PieCloudDB,以云计算架构为设计基础,首创 全新eMPP分 证⽤户的实时性需求。PieCloudDB针对底层对象存储设计了 高效的文件格式,可在节省⽹络请求的同时提⾼计算效率。 全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息,并⽣成更⾼ 效的查询计划,达奇优化器支持聚集下推,预计算,Block Skipping等高级特性,全面满足各种复杂的分析查询需求。 @2022 OpenPie. All rights reserved. OpenPie reserved. OpenPie Confidential PieCloudDB Optimizer 是一个基于eMPP架构的云原生分布式优化器,它 可以为海量数据集上的复杂OLAP查询提供最优的查询计划。 • 分布式优化器 • 处理复杂OLAP查询 • 云原生优化器 PieCloudDB Optimizer @2022 OpenPie. All rights reserved. OpenPie0 码力 | 44 页 | 1.64 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCSπDataCS旨在助力企业优化计算瓶颈、充分利用和发挥数据规模优势,构建核心技术壁垒,让大模 型技术全面赋能行业AI场景应用,助力合作伙伴成功,为企业创造更大的商业价值。 全 球 数 据 计 算 系 统 引 领 者 • 归国后在美国500强EMC旗下创建了Greenplum中国,随后在2013年在Paul Maritz(届时VMware CEO,曾任微软Windows平台总负责人)和Scott Yara的支持下创建了Pivotal中国。 中唯一“年度创业人物” 打造大模型时代 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派入选中国信通院“铸基计划”「高质量数字 化转型产品及服务全景图」 拓数派再次携WAIC创建智能驾驶科技分会 杭州萧山区政府“一事一议”支持政策获 批 9月 拓数派上榜《毕马威中国-未来独角兽 人工智能创新双 30企业(长江三角洲地区)》 户的实时性需求。PieCloudDB针对底层对象存储设计了高效的 文件格式,可在节省网络请求的同时提高计算效率。 全新的优化器「达奇」 PieCloudDB可以更智能高效地生成统计信息,并生成更高效 的查询计划,达奇优化器支持聚集下推,预计算,Block Skipping等高级特性,全面满足各种复杂的分析查询需求。 πDataCS的第二个计算引擎 πCloudVector 计算引擎之 PieCloudVector0 码力 | 29 页 | 7.46 MB | 1 年前3
共 15 条
- 1
- 2













