Greenplum Database 管理员指南 6.2.1......................................................................................... - 354 - 生成扩展配置文件 ............................................................................................ 并行数据装载 管理与监控 管理节点:Master Master 作为 GP 的访问入口,主要负责处理客户端连接的访问以及用户提交的 SQL 语句的解析、生成执行计划、优化执行计划等。Master 不存储业务数据,只存储 用于维持系统运行的全局信息,比如,对象定义信息,统计信息等,Master 非常重要, 如果 Master 丢失,即便是原厂专业技术支持,也不能保证恢复所有信息。 上存储着全局系统表(Global System Catalog)(包含数据库系统自 身元数据的数据表),但不存储任何业务数据,业务数据只存储在 Instance 上。 Master 负责客户端的登录认证、SQL 命令接收并生成并行执行计划、对执行计划进行 优化、在 Instance 之间分发执行计划、整合 Instance 处理结果、将 Instance 的 处理结果汇总并反馈给客户端程序。 目前,GP 还不支持0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台开源项目及其相关源代码的版本。这意味着,可以通 过 greenplum.org 网站下载和编译的版本以及通过 Pivotal Network 分发的打包版本将具有相同的内核(只有个别微小差 别)。这是两年来致力于与 PostgreSQL 8.3.23 集成的成果,目的在于扩展和融入以 Greenplum 为中心的生态系统和社 区。为了更好地贴合 PostgreSQL 社区的模式,他们对代码库进行了重构, PIVOTAL GREENPLUM 5:新一代数据平台 GPORCA:Pivotal 查询优化器更新 对直到最近,Greenplum 一直采用传统查询优化器 (LQO) 。这是适用于 Greenplum 代码库的原始 PostgreSQL 规划器的衍 生产品。PostgreSQL 规划器最初是为单节点 PostgreSQL 设计的,更适用于 OLTP 查询,而不是分析数据平台中长时间运 行的查询。尽管具 2010 年底,Greenplum 开始在内部开发一款新型查询优化器,并在 Greenplum 4.3.5 版中首次推出,名为 GPORCA。 GPORCA 能够针对分析数据仓库中常见的一些复杂情况生成更高效的代码,因而非常实用。过去,系统默认使用传统查询 优化器,但自 Greenplum 5 起,GPORCA 将成为默认查询优化器。它能够通过并发的混合工作负载处理多种复杂查询, 并可提高查询性能。20 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum 编译安装和调试编译安装和调试 本文先介绍如何从源代码编译安装Greenplum、初始化Greenplum集群。然后介绍SQL在 Greenplum中的典型执行路径,最后介绍一些调试技巧。 源代码使用 Greenplum 开源社区最新源代码 6X_STABLE 分支: https://github.com/greenplum-db/gpdb,内核代码基于 PostgreSQL 9.4。目前(2019/04/23) 4。目前(2019/04/23) 主 干分支的代码基于 PostgreSQL 9.4。合并到 PostgreSQL 9.5 的工作也已经开始,有关最新工作 进展请参见:https://github.com/greenplum-db/gpdb-postgres-merge。 1. 从源代码编译 Greenplum Greenplum 目前官方支持 Redhat/Centos/SuSE/Ubuntu 有关更详细的信息请参考 README.macOS.md。 1.2 在 Redhat/Centos 系统上编译 本小节以 RHEL7 为例介绍如何编译Greenplum。 首先下载 Greenplum 源代码 $ git clone https://github.com/greenplum-db/gpdb Greenplum Database 编译和运行依赖于各种系统库和Python库。需要先安装这些依赖:0 码力 | 15 页 | 2.07 MB | 1 年前3
Greenplum 排序算法问题一:分割阶段只需要顺序扫描一次外存,最简单的策略是读取外存数据,加 载到内存,当内存用满时,执行快速排序等内排序算法,生成一个顺串。之后清 空内存,继续读取外存数据,如此反复,直到所有外存数据处理完毕。该算法生 成的每一个顺串的大小都不会超过内存的大小,而顺串越小,合并阶段的代价 就越高,需要读取外存的次数也越多,有没有办法在分割阶段就生成大于内存 大小的顺串呢? 归并排序的三个问题 23 替换选择算法 24 Knuth 并调整堆,使其有 序。 ● 4. 如果新元组排序键小于lastkey,将该元组放入堆尾,并将堆的大小减1。 ● 5. 重复第2步,直至堆大小变为0。 ● 6. 顺串生成完毕。将堆大小重置为N,并重新建堆。重复第2步,开始生成下一 个顺串。 替换选择算法 25 ● 问题二:合并阶段假设存在N个输入缓冲区,如何高效的比较N个输入缓冲区的 最小值,并输出到输出缓冲区? 归并排序的三个问题 lesort模块进行排序 排序节点 37 TupleSort是排序节点的核心,算法主要阶段: ● 第一阶段初始化TupleSort,通过调用函数tuplesort_begin_common,生成 Tuplesortstate。Tuplesortstate用于描述排序所需的信息 ● 第二阶段插入元组,每次调用函数puttuple_common,会根据当前TupleSort的 状态,选择将元组插入到不同的位置。0 码力 | 52 页 | 2.05 MB | 1 年前3
Greenplum 精粹文集postgresql 的 contrib 中的一些常用模块 Greenplum 提 供了编译后的模块开箱即用,如:oraface、postgis、pgcrypt 等, 对于其它模块,用户可以自行将 contrib 下的代码与 Greenplum 的 include 头文件编译后,将动态 so 库文件部署到所有节点就可进行测 试使用了。有些模块还是非常好用的,例如:oraface,基本上集成了 Oracle 常用的函数到 性能优势,我们强烈建议用户将库外的处理逻辑,部署到用 MPP 数 据库的 UDF 这种 In-Database 的方式来处理,你将获得意想不到的性 能和方便性;例如我们在某客户实现的数据转码、数据脱敏等,只需 要简单的改写原有代码后部署到 GP 中,通过并行计算获得数十倍性 能提高。 另外,GPTEXT(lucent 全文检索)、Apache Madlib(开源挖掘算法)、 SAS algorithm、R 都是通过 UDF 题,Greenplum 采 用 Master-slave 架 构, Master 是否会成为瓶颈?完全不用担心,Greenplum 所有的并行任务 都是在 Segment 数据节点上完成后,Master 只负责生成和优化查询 计划、派发任务、协调数据节点进行并行计算。 按照我们在用户现场观察到的,Master 上的资源消耗很少有超过 20% 情况发生,因为 Segment 才是计算和加载发生的场所(当然,0 码力 | 64 页 | 2.73 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 GreenplumGreenplum 环境适用性强与其开放性、真正开源、社区活跃有密不可分的关系,一方面 Greenplum 能够独立于专用 硬件加速提供高性能的纯软件数据平台,无需专用硬件,另外一方面包括核心代码在内的全部开源,社区人员或客户 可最大化自由利用和借鉴 Greenplum 的优秀功能的同时,又可以反哺及影响总体产品研发方向,可以加快产品创新, 基于此 Greenplum 有适用于多种环境的 数据平台 Greenplum 白皮书 9 白皮书 | 9 源代码在各种平台进行编译使用。作为能够独立于专用硬件加速提供高性能的纯软件数据平台,Greenplum 可根据 客户需求在任何位置运行。借助这种“不受限于基础架构”的方法,可以在本地不同的操作系统、不同的芯片环境或多 Greenplum 数据库与 Docker 容器交互,以在容器中执行用户定义函数 (UDF),这样方便数据科学家可以在不需要 DBA 帮助的情况自由使用数据分析,同时大大提高了安全性,Docker 容器确保用户代码无法访问源主机的文件系统。此外,容器启动时网络访问受限,无法连接回 Greenplum 数据库或 打开任何其他外部连接。 集成分析:改进后的全新分析接口 一直以来,客户都能在 Greenplum0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum机器学习⼯具集和案例强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017 数据整理理 特征⽣生成 验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 逻辑回归 Elastic Net 特征选择 模型 1 2 3 4 5 6 改进后的 in-database 流程 2017.thegiac.com 数据编辑/整理理 之前 之后 性能提升 ● 181 ⾏行行代码 ● 75 分钟 分钟 ● 116 ⾏行行代码 ● 8 分钟 9.35x 特征编辑 ● 439 特征 ● 4,517 ⾏行行代码 ● 100 分钟 ● 934 特征 ● 1,438 ⾏行行代码 ● 30 分钟 多 495 个特征,快 3.33x 信息价值 ● ~450 个变量量,~30分 钟计算结果并写⼊入 excel ● 在 GPDB0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享2008 标准,OLAP,JDBC/ODBC 支持ACID、分布式事务 分布式数据库:线性扩展,支持上百物理节点 企业级数据库:全球大客户超过 1000+ 安装集群 百万行源代码,超过10年的全球研发投入 开源数据库(greenplum.org),良性生态系统 5 Pivotal Confidential–Inter nal Use Only 5 © Copyright Motion Table Scan Hash Hash Join Gather Motion SLICE 3 SLICE 1 SLICE 2 SEGMENT 2 SEGMENT 1 生成并行查询计划 12 Pivotal Confidential–Inter nal Use Only master segment1 segment2 QD process slice 3 Confidential–Inter nal Use Only 优化器 本地存储 主节点Segment 系统表 分布式事务 Interconnect 调度器 执行器 解析器 优化器 处理解析树,生成 查询计划 查询计划描述了如 何执行查询 主节点 Segment 实例 本地事务 执行器 系统表 本地存储 Segment 主机 Segment 实例 Local TM 执行器Executor0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台SELECT customer, amount FROM orders JOIN customer USING (cust_id) WHERE date=2008; 生成并行查询计划 8 Pivotal Confidential–Internal Use Only 执行并行计划 Standby Master … Master Host Interconnect 更多思路? 资源 ■ 中文社区:http://greenplum.cn ■ 文档:https://gpdb.docs.pivotal.io/6-0Beta/main/index.html ■ 代码:https://github.com/greenplum-db/gpdb 由于微信群组规定限制,请首先添加这个入群 助手个人微信,会拉您入群 QQ群0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum开源MPP数据库介绍通过网络进行数据交换和汇总 Confidential │ ©2022 VMware, Inc. 7 执行架构 Interconnect Client Ø Coordinator: q 管理其它节点 q 生成分布式计划 q 下发计划和汇总结果 q 管理分布式事务 Ø Segments: q 存储数据,share-nothing q 产生计算进程 Ø Libpq:控制信道 Ø Interconnect: executor)负责执行查询 Ø 查询的生命周期: 1) 客户端连接coordinator, coordinator fork出QD 2) QD 拿到纯文本的查询,解析、优化、生成一个树形结构的分布式计划 3) QD 生成slice结构,生成每个slice的一系列进程结构(Gang) 4) QD 连接segment节点,segment节点fork出QE,QE执行分布式计划 5) QD 从QE归集结果,返回给客户端 从QE归集结果,返回给客户端 Confidential │ ©2022 VMware, Inc. 14 分布式执行和事务 Ø MVCC q Xmin, Xmax 是节点本地的 Ø 分布式快照 q QD生成,下发给QE q segment本地事务异步两阶段提交,保持一致性 Ø HTAP 优化 q 全局死锁检测 q 只读事务、只涉及到某个节点的操作、vacuum Ø SIGMOD 2021: Greenplum:0 码力 | 23 页 | 4.55 MB | 1 年前3
共 30 条
- 1
- 2
- 3













