查询操作 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PostgreSQL 查询优化器解析

0 码力 | 37 页 | 851.23 KB | 1 年前
3
PieCloudDB Database 社区版集群安装部署手册 V2.1

........................................................................................ 35 4.5 查询计算 ................................................................................................ ...................................................................................... 38 4.6 评估查询表现 ................................................................................................ ......... 41 1. 集群规划此次准备了 3 台虚拟机，具体信息如下：序号角色主机名 IP 地址操作系统用户名/密码 PieCloudDB 版本操作系统版本 1 K8S 的 Master pie4 10.24.31.154 root/openpie V2.1.1 Centos 7 2 K8S

0 码力 | 42 页 | 1.58 MB | 1 年前
3
PieCloudDB Database 产品白皮书

面临数据库的扩容和升级时，由于传统数据仓库架构存储和计算的紧密耦合，往往需要企业花费巨大的运维和时间成本，且操作繁琐。木桶效应传统 MPP 数据仓库架构存在“木桶效应”，集群整体执行速度取决于最“短板的”节点的性能。因此，一个节点的表现往往会 “拖幸”整个集群的性能，导致查询速度变慢。随卷时间的推移，业务的增长，企业往往需要在1-2年后对集群增加计算节点，此时，无论新的计算节点性群并发、高可用以及用户权限等功能; 2. 计算节点: 无状态节点 (包括 Coordinator 和 Executer) ，主要负责接收用户请求和数据计算，支持动态弹性伸缩，提供数据查询、执行计划、查询优化、数据加载、连接管理、并行计算以及资源隔离等功能; 3. 存储节点; 存算分离架构，支持本地存储和云存储，推荐采用对象存储，提供数据压缩、数据加密、多模存储以及多级缓存等功能; 4 采用高效并行的方式进行数据加载和处理，处理速度随节点增加而提升，支持流数据快速加载。 PieCloudDB 的eMPP (弹性大规模并行计算) 架构让数据计算可以自动化弹性伸缩，用户可以根据计算任务灵活的分配最优数量的节点执行查询。同时PieCloudDB的多集群能力可轻松面对高并发场景，企业可以根据业务的并发需求动态扩展 PieCloudDB 集群，满足业务应用的并发需求。 Openpie | PiecloudDB 基于eMPP

0 码力 | 17 页 | 2.68 MB | 1 年前
3
云原生虚拟数仓PieCloudDB Database产品白皮书

的扩容和升级时，由于传统数据仓库架构存储和计算的紧密耦合，往往需要企业花费巨大的运维和时间成本，且操作繁琐。木桶效应传统 MPP 数据仓库架构存在“木桶效应”，集群整体执行速度取决于最“短板的”节点的性能。因此，一个节点的表现往往会 “拖垮”整个集群的性能，导致查询速度变慢。随着时间的推移，业务的增长，企业往往需要在1-2年后对集群增加计算节点，此时，无论新的计 2. 计算节点：无状态节点（包括 Coordinator 和 Executer），主要负责接收用户请求和数据计算，支持动态弹性伸缩，提供数据查询、执行计划、查询优化、数据加载、连接管理、并行计算以及资源隔离等功能； 3. 存储节点：存算分离架构，支持本地存储和云存储，推荐采用对象存储，提供数据压缩、数据加密、采用高效并行的方式进行数据加载和处理，处理速度随节点增加而提升，支持流数据快速加载。 PieCloudDB 的 eMPP（弹性大规模并行计算）架构让数据计算可以自动化弹性伸缩，用户可以根据计算任务灵活的分配最优数量的节点执行查询。同时PieCloudDB的多集群能力可轻松面对高并发场景，企业可以根据业务的并发需求动态扩展 PieCloudDB 集群，满足业务应用的并发需求。 8 原生多租户支持人性化的管控平台

0 码力 | 17 页 | 2.02 MB | 1 年前
3
πDataCS赋能工业软件创新与实践

，赋能⾏业AI场景应用。具备整体数据平台⽅案，支持多模数据处理（结构化、半结构化以及非结构化数据），实现数据共享和分析。软件优化 + 新硬件（FPGA）加速，实现数据全链路的性能飞跃，让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 @2024 OpenPie. All rights reserved. OpenPie Confidential • 全新云原⽣架构「⼀份数据，多引擎计算」 C l o u d D B 技术突破：数仓虚拟化云原⽣存算分离架构运用元数据-计算-数据分离的三层架构，实现云上存储资源与计算资源的独立管理。云上计算资源可弹性分配，有查询计算任务的时候按需启动，按照使用时间和规模计算成本。 eMPP分布式专利技术在云上，PieCloudDB利用eMPP（elastic Massive Parallel Processi ⾼效的⽂件格式，可在节省⽹络请求的同时提⾼计算效率。全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息，并⽣成更⾼效的查询计划，达奇优化器支持聚集下推，预计算，Block Skipping等⾼级特性，全面满⾜各种复杂的分析查询需求。 @2024 OpenPie. All rights reserved. OpenPie Confidential eMPP分布式专利技术

0 码力 | 36 页 | 4.25 MB | 1 年前
3
云原生数据库PieCloudDB 性能优化之路

通过逻辑上的等价变换，把查询树转换为更加简单高效的等式 • 分发约束条件，收集外连接信息等 • 扫描/连接优化阶段 • 主要处理扫描和连接操作 • 扫描/连接之外的优化阶段 • 主要处理除扫描和连接之外的其他操作，例如聚集、排序等 • 后处理阶段 • 主要把前面的处理结果转换成执行器期望的形式 • 简化表达式 • 简化连接树 • 把 IN,EXISTS 等类型的子查询转换为半连接 • 提升子查询提升子查询 • 把外连接转换为内连接 • 把外连接转换为反连接 • 分发约束条件 • 构建等价类 • 收集外连接信息 • 消除无用连接 • … SELECT … FROM foo WHERE EXISTS (SELECT 1 FROM bar WHERE foo.a = bar.c); => SELECT … FROM foo *SEMI JOIN* bar ON foo.a = Materialize -> Seq Scan on bar (5 rows) • 主要处理查询语句中FROM和WHERE部分 • 同时也会考虑到ORDER BY的信息 • 代价驱动 • 为基表生成扫描路径，并计算扫描路径的代价和结果集大小 • 搜索整个连接顺序空间，为连接操作生成连接路径 • O(n!) • 动态规划 • 遗传算法 • 考虑外连接对连接顺序的限制 (A

0 码力 | 26 页 | 711.44 KB | 1 年前
3
PieCloudDB Database V2.1 版本说明

年 10 月内核 • 聚集下推功能得到增强：通过把聚集操作下推到连接操作之前去执行，极大的减少连接操作需要处理的数据量，使得查询性能显著提升。 • 实现了 Block Skipping 的优化机制：数据库运行查询语句时，通过计算每个块（block）中列聚集信息，在执行期间跳过非必要的数据块，减少数据读取量提高查询性能。 • 极速 Analyze（Smart Analyze）： Analyze，更快的生成精确的查询规划统计信息，从而在查询时可以生成更优的查询计划。 • 全新的缓存机制：在 PieCloudDB 的计算层，各个计算节点针对元数据都设计了多层缓存结构。其中，针对元数据，PieCloudDB 实现了元数据层全新的缓存机制，有效减少了访问元数据服务器带来的网络通信开销和元数据服务器的负载，提高元数据访问的速度。 • 可观察性增强：可得到更多的查询时系统的统计信息，包括元数据管理、S3 简墨（JANM）分布式处理增强：更高效的元数据采集和分发，提升用户查询响应时间，降低系统负载 • 简墨（JANM）动态分配读取文件增强 dispatch 性能：此优化将动态的分配要读取的文件给各个执行节点，降低查询的启动代价。 • 原生格式存储：在 HDFS/NAS 系统上支持原生存储格式。 • 对 Orca 的支持：PieCloudDB 支持查询优化器 Orca。Orca 是一款开源的、基

0 码力 | 3 页 | 257.15 KB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

多个集群（虚拟数仓）可以共享⼀份元数据 • FoundationDB⾼可⽤设计、备份恢复保证元数据的可靠性和可⽤性元数据管理缓存 • ⺫的： • 减轻FoundationDB集群负担 • 加速查询优化（⺴络延迟远⾼于内存延迟） • 以Postgres原⽣的元数据缓存概念为基础，优化重构实现适⽤于多集群架构⽤户数据存储引擎 • PAX（⾏列混存）配以⾼效压缩 • Block⽂件为⼀个存储(MVCC)单位 Skipping (本地查询和远程读取） • 预聚集 • ...... 存储中⽴ • 公有云，私有云，混合云 • 对象存储（数据共享，存算分离）按需付费 • 也⽀持HDFS，NAS ⽤户数据可靠安全 • ⽤户数据⾼可靠实时加解密 (TDE) • 分布式对象存储多副本多可⽤区保证数据安全：“⼀份”数据，避免数据不⼀致 • 将来Time Travel查询“回收站”数据⽤户数据查询效率优化计算优化（各种功能特性持续优化中） • 很多复杂OLAP查询如果不是IO瓶颈，不会受制于它 • …... 计算引擎之优化器 PieCloudDB Optimizer 是⼀个基于eMPP架构的云原⽣分布式优化器，它可以为海量数据集上的复杂OLAP查询提供最优的查询计划。 • 分布式优化器 • 处理复杂OLAP查询 • 云原生优化器处理复杂OLAP查询多表连接的最优顺序搜索多阶段聚集

0 码力 | 31 页 | 1.43 MB | 1 年前
3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现

@2022 OpenPie. All rights reserved. OpenPie Confidential • Nosql本身对于高级分析支持差 o 图形，地理信息 • Nosql对于复杂查询的支持差 NoSQL和数据湖很难胜任数据分析的工作场景 @2022 OpenPie. All rights reserved. OpenPie Confidential • 使用数据湖为基础进使用数据湖为基础进行数据分析需要多个组件进行集成部署，多个组件的配合需要大量的开发工作 • 许多缺乏 ANSI SQL 支持，需要专门的技术技能 • 专用引擎/工具（例如图形数据库）通常难以与记录系统集成，限制了分析和创新的操作化 NoSQL和数据湖为基础的基础设施需要的分析工具不容易集成和部署 @2022 OpenPie. All rights reserved. OpenPie Confidential • 公有 All rights reserved. OpenPie Confidential • 全面的逻辑优化（谓词下推，子查询子链接提升，外连接消除） • 纯粹基于代价的物理优化 • 全面的数据分布特性描述，分布式代价估算，高效分布式表连接 • 多阶段的聚集专门为复杂查询设计的优化器分布式环境高效执行器 • 多阶段执行模型 • 流式数据重分布 @2022 OpenPie. All

0 码力 | 43 页 | 1.14 MB | 1 年前
3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

最好的 ETL 就是不需要 ETL，各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 • 错误处理 • 任务调度总控 user_type …; SELECT meta, raw FROM foreign_table LATERAL JOIN formatter(raw); • INSERT 模式，步骤3 对解析出的列执行数据转换操作 SELECT r.a, r.b+r.c, func(r.d) … FROM (SELECT meta, raw FROM foreign_table LATERAL JOIN formatter(raw) 插入历史表，支持断点续传 • Merge/Upsert 模式，支持 CDC 场景 • 数据需要包含操作字段 (OP)，即 INSERT/UPDATE/DELETE • 数据需要包含逻辑主键 (LPK)，当逻辑主键不存在时做插入，已存在时做更新或者删除 • 数据需要包含顺序键 (OK)，以决定操作生效的顺序 • 数据可以重复，但不可以有事务逻辑错误 • Merge/Upsert 模式，步骤1

0 码力 | 29 页 | 5.24 MB | 1 年前
3

共 19 条前往

页

分类

语言

格式

PostgreSQL 查询优化器解析

PieCloudDB Database 社区版集群安装部署手册 V2.1

PieCloudDB Database 产品白皮书

云原生虚拟数仓PieCloudDB Database产品白皮书

πDataCS赋能工业软件创新与实践

云原生数据库PieCloudDB 性能优化之路

PieCloudDB Database V2.1 版本说明

云原生数据库 PieCloudDB eMPP架构设计与实现

云原生虚拟数仓 PieCloudDB 的架构和关键模块实现

云原生虚拟数仓 PieCloudDB ETL 方案设计与实现