 Greenplum Database 管理员指南 6.2.1Instance 文件有损毁, 将需要全量恢复或者需要选择全量恢复。在 6 之前的版本,GP 的 Primary 和 Mirror 之间采用的是 filerep 的方式进行 block 级别的变化同步的机制,从 6 版本开始, 使用 WAL 复制,这将可以从根本上解决以往的 block 损毁被复制到 Mirror 上的问题, 也不再需要 persistent 系统表了(这个的确是一个让人很头疼的设计)。 生变化,就会自动同步到 Standby 从而保证与 Master 的一致性,所以,Standby 与 Master 可以保持实时同步。在 6 之前的版本,Master 与 Standby 的同步机制就 一直是 WAL 同步,而在 6 版本开始,Primary 和 Mirror 也采用了 WAL 同步,但由 于 Mirror 需要同步的 WAL 日志的量很大,所以,对性能的影响比 Standby 区 (只要该层级中存在)总是会被扫描,如果默认分区中包含数据,其一定会影响处理时 间。对于Orca优化器来说,如果查询条件不涉及默认分区,则不会扫描默认分区,如 果分区条件不是常量,Orca还会进行动态分区裁剪。 在使用COPY或者INSERT向ROOT表装载数据时,这些数据会默认自动路由到正确 的叶子分区。因此,可以像使用普通的未分区表一样插入数据到分区表。 Greenplum Database0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1Instance 文件有损毁, 将需要全量恢复或者需要选择全量恢复。在 6 之前的版本,GP 的 Primary 和 Mirror 之间采用的是 filerep 的方式进行 block 级别的变化同步的机制,从 6 版本开始, 使用 WAL 复制,这将可以从根本上解决以往的 block 损毁被复制到 Mirror 上的问题, 也不再需要 persistent 系统表了(这个的确是一个让人很头疼的设计)。 生变化,就会自动同步到 Standby 从而保证与 Master 的一致性,所以,Standby 与 Master 可以保持实时同步。在 6 之前的版本,Master 与 Standby 的同步机制就 一直是 WAL 同步,而在 6 版本开始,Primary 和 Mirror 也采用了 WAL 同步,但由 于 Mirror 需要同步的 WAL 日志的量很大,所以,对性能的影响比 Standby 区 (只要该层级中存在)总是会被扫描,如果默认分区中包含数据,其一定会影响处理时 间。对于Orca优化器来说,如果查询条件不涉及默认分区,则不会扫描默认分区,如 果分区条件不是常量,Orca还会进行动态分区裁剪。 在使用COPY或者INSERT向ROOT表装载数据时,这些数据会默认自动路由到正确 的叶子分区。因此,可以像使用普通的未分区表一样插入数据到分区表。 Greenplum Database0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum 精粹文集数 据库实例同时开展并行计算。而且,这些 Postgresql 之间采用 share- nothing 无共享架构,从而更将这种并行计算能力发挥到极致,除此之 外,MPP 采用两阶段提交和全局事务管理机制来保证集群上分布式事 务的一致性,Greenplum 像 Postgresql 一样满足关系型数据库的包括 ACID 在内的所有特征。 从上图可以看到,Greenplum 的最小并行单元不是节点层级,而是在 供了编译后的模块开箱即用,如:oraface、postgis、pgcrypt 等, 对于其它模块,用户可以自行将 contrib 下的代码与 Greenplum 的 include 头文件编译后,将动态 so 库文件部署到所有节点就可进行测 试使用了。有些模块还是非常好用的,例如:oraface,基本上集成了 Oracle 常用的函数到 Greenplum 中,曾经在一次 PoC 测试中,用户 提供的 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror 镜像保护机制 ·资源队列管理 ·WEB/Brower 监控 Big Date2.indd 7 16-11-22 下午3:38 8 3. Greenplum 的艺术 -- Parallel Everything0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集数 据库实例同时开展并行计算。而且,这些 Postgresql 之间采用 share- nothing 无共享架构,从而更将这种并行计算能力发挥到极致,除此之 外,MPP 采用两阶段提交和全局事务管理机制来保证集群上分布式事 务的一致性,Greenplum 像 Postgresql 一样满足关系型数据库的包括 ACID 在内的所有特征。 从上图可以看到,Greenplum 的最小并行单元不是节点层级,而是在 供了编译后的模块开箱即用,如:oraface、postgis、pgcrypt 等, 对于其它模块,用户可以自行将 contrib 下的代码与 Greenplum 的 include 头文件编译后,将动态 so 库文件部署到所有节点就可进行测 试使用了。有些模块还是非常好用的,例如:oraface,基本上集成了 Oracle 常用的函数到 Greenplum 中,曾经在一次 PoC 测试中,用户 提供的 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror 镜像保护机制 ·资源队列管理 ·WEB/Brower 监控 Big Date2.indd 7 16-11-22 下午3:38 8 3. Greenplum 的艺术 -- Parallel Everything0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum资源管理器portal – SQL结束不一定释放slot – 一个事务用光所有slot 2017 年象行中国(杭州 站)第一期 Resource Queue • System PANIC – 需要睡眠/唤醒机制 – Count + LWLock + Lock • Count:记录并发数 • LWLock:保护count • Lock:睡眠/唤醒,死锁检测,状态报告 – 维护Lock在共享内存的状态 – Resource Group • What’s more? – ALTER RESOURCE GROUP • 延迟生效 • merge proposed value to real value – 动态迁移事务到其他group • 一致性 • 死锁 – Disk IO control? • buffered write? – Network IO control? – ... 2017 年象行中国(杭州0 码力 | 21 页 | 756.29 KB | 1 年前3 Greenplum资源管理器portal – SQL结束不一定释放slot – 一个事务用光所有slot 2017 年象行中国(杭州 站)第一期 Resource Queue • System PANIC – 需要睡眠/唤醒机制 – Count + LWLock + Lock • Count:记录并发数 • LWLock:保护count • Lock:睡眠/唤醒,死锁检测,状态报告 – 维护Lock在共享内存的状态 – Resource Group • What’s more? – ALTER RESOURCE GROUP • 延迟生效 • merge proposed value to real value – 动态迁移事务到其他group • 一致性 • 死锁 – Disk IO control? • buffered write? – Network IO control? – ... 2017 年象行中国(杭州0 码力 | 21 页 | 756.29 KB | 1 年前3
 Greenplum on Kubernetes
容器化MPP数据库存储计算分离 ○ PV持久化存储资源 ○ StatefulSet/Pod弹性扩展计算资源 ● 数据库服务层 ○ Service统一Master & Standby Master地址 ● 服务发现机制 ○ 所有节点地址名不变 ● 跨云能力 ○ 容器应用对基础设施透明 Greenplum Operator Kubernetes Operator ● 自定义资源类型 ○ Custom Resource Greenplum Operator ● Kubernetes Deployment维护Greenplum Operator ● 集群自动部署 ○ kube-scheduler → 自定义部署策略 ● 集群动态扩容 ○ GreenplumCluster → primarySegmentCount参数 ● Master节点检测及修复 ○ 自动执行gpactivatestandby ○ 重定向Service路由0 码力 | 33 页 | 1.93 MB | 1 年前3 Greenplum on Kubernetes
容器化MPP数据库存储计算分离 ○ PV持久化存储资源 ○ StatefulSet/Pod弹性扩展计算资源 ● 数据库服务层 ○ Service统一Master & Standby Master地址 ● 服务发现机制 ○ 所有节点地址名不变 ● 跨云能力 ○ 容器应用对基础设施透明 Greenplum Operator Kubernetes Operator ● 自定义资源类型 ○ Custom Resource Greenplum Operator ● Kubernetes Deployment维护Greenplum Operator ● 集群自动部署 ○ kube-scheduler → 自定义部署策略 ● 集群动态扩容 ○ GreenplumCluster → primarySegmentCount参数 ● Master节点检测及修复 ○ 自动执行gpactivatestandby ○ 重定向Service路由0 码力 | 33 页 | 1.93 MB | 1 年前3
 Greenplum上云与优化T_OSS Select count(*) from T_GP Group by city OSS作为“数据湖”,GP作为分析引擎 2016Postgres中国用户大会 支持外部扩展已插件形式管理 支持插件创建的语法 CREATE EXTENSION DROP EXTENSION Patch已提交社区 2016Postgres中国用户大会 HyperLogLog支持 create extension userids hll); select #userids from access_date where acc_date=current_date; 2016Postgres中国用户大会 目前支持的插件 MADLib PL/Java Pgcrypto Fuzzstringmatch PostGIS Orca hll 2016Postgres中国用户大会 完善的JSON数据类型支持 rds_superuser; Alter role my_user nords_superuser; 为该用户放开部分superuser的权限 查看其它用户数据 查看所有连接信息 杀连接 创建和删除插件 2016Postgres中国用户大会 解决OOM问题 实例的OOM有时很频繁,同时OOM很难提前监控 我们的办法 利用外部脚本监控cgroup中的内存统计 发生内存水位较高时,将实例移入公共0 码力 | 26 页 | 1.13 MB | 1 年前3 Greenplum上云与优化T_OSS Select count(*) from T_GP Group by city OSS作为“数据湖”,GP作为分析引擎 2016Postgres中国用户大会 支持外部扩展已插件形式管理 支持插件创建的语法 CREATE EXTENSION DROP EXTENSION Patch已提交社区 2016Postgres中国用户大会 HyperLogLog支持 create extension userids hll); select #userids from access_date where acc_date=current_date; 2016Postgres中国用户大会 目前支持的插件 MADLib PL/Java Pgcrypto Fuzzstringmatch PostGIS Orca hll 2016Postgres中国用户大会 完善的JSON数据类型支持 rds_superuser; Alter role my_user nords_superuser; 为该用户放开部分superuser的权限 查看其它用户数据 查看所有连接信息 杀连接 创建和删除插件 2016Postgres中国用户大会 解决OOM问题 实例的OOM有时很频繁,同时OOM很难提前监控 我们的办法 利用外部脚本监控cgroup中的内存统计 发生内存水位较高时,将实例移入公共0 码力 | 26 页 | 1.13 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商接⼊ 接⼊ Zeppelin Zeppelin 简介 简介 Zeppelin 是⼀个开源的 Apache 的孵化项⽬. 它是⼀款基本 web 的 notebook ⼯具,⽀持交互式数据分析。通过插件的⽅式接⼊各种解释器(interpreter),使得⽤⼾能够以特定的语⾔ 或数据处理后端来完成交互式查询,并快速实现数据可视化。 部署 部署 Zeppelin 1) 安装 Java Zeppelin 下载安装https://www.elastic.co/downloads/logstash 2. logstash依赖java环境、确保已经安装过java 3. 安装logstash-output-kafka插件 4. 配置logstash收集⽇志写⼊Kafka 参考配置如下(更多参数和含义请参考官⽅⽂档): UDW 使⽤案例 Greenplum数据仓库 UDW Copyright © 2012-20210 码力 | 206 页 | 5.35 MB | 1 年前3 Greenplum数据仓库UDW - UCloud中立云计算服务商接⼊ 接⼊ Zeppelin Zeppelin 简介 简介 Zeppelin 是⼀个开源的 Apache 的孵化项⽬. 它是⼀款基本 web 的 notebook ⼯具,⽀持交互式数据分析。通过插件的⽅式接⼊各种解释器(interpreter),使得⽤⼾能够以特定的语⾔ 或数据处理后端来完成交互式查询,并快速实现数据可视化。 部署 部署 Zeppelin 1) 安装 Java Zeppelin 下载安装https://www.elastic.co/downloads/logstash 2. logstash依赖java环境、确保已经安装过java 3. 安装logstash-output-kafka插件 4. 配置logstash收集⽇志写⼊Kafka 参考配置如下(更多参数和含义请参考官⽅⽂档): UDW 使⽤案例 Greenplum数据仓库 UDW Copyright © 2012-20210 码力 | 206 页 | 5.35 MB | 1 年前3
 Greenplum数据库架构分析及5.x新功能分享Confidential–Inter nal Use Only 平台概况 产品特性 客户端访问和工具 多级容错机制 无共享大规模并行处理 先进的查询优化器 多态存储系统 客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 任务管理 服务 加载 & 数据联邦 高速数据加载0 码力 | 44 页 | 8.35 MB | 1 年前3 Greenplum数据库架构分析及5.x新功能分享Confidential–Inter nal Use Only 平台概况 产品特性 客户端访问和工具 多级容错机制 无共享大规模并行处理 先进的查询优化器 多态存储系统 客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 任务管理 服务 加载 & 数据联邦 高速数据加载0 码力 | 44 页 | 8.35 MB | 1 年前3
 Pivotal Greenplum 5: 新一代数据平台Pivotal 长久以来 在市场上取得的成功。从 2017 年初开始,他们每个月发布一次 Greenplum 更新,使其保有快速而可靠的创新力。 此次推 出的 Greenplum 5 是一个功能齐全、动态的、创新型分析数据平台,其产品路线图规划健全且充满活力,无论是短期内还 是未来长期时间里,都能满足客户的需求。 支持多种云不受限于基础架构的数据平台 Pivotal Greenplum 5 是首个内核百分百基于 Greenplum 能够处理复杂得多 的 CTE,因为它不必将其完全展开,只需对其进行动态处理即可。GPORCA 生成 CTE 计划的速度比传统规划器优化器平 均要快 7 倍。6 要整理大型表中的数据,一种常见方法就是使用分区。Greenplum 5 采用 GPORCA 作为默认查询优化器,可确定消除与结 果无关的分区的经济方式,从而改进动态分区消除。这是通过引入以下三个新的查询操作符实现的,这三个操作符在生成 lector、DynamicScan 和 Sequence。通过在查询计划中放置 这些 PartitionSelector,GPORCA 可以支持更复杂的模式,例如基于相等和范围谓词的分区选择,以及动态分区消除。7 Greenplum 5 中的 ANALYZE 命令使用更快速的 PostgreSQL 实施来收集表统计数据,从而针对堆积优化表和附加优化表提 高其性能。系统会在单个查询中收集行示例,0 码力 | 9 页 | 690.33 KB | 1 年前3 Pivotal Greenplum 5: 新一代数据平台Pivotal 长久以来 在市场上取得的成功。从 2017 年初开始,他们每个月发布一次 Greenplum 更新,使其保有快速而可靠的创新力。 此次推 出的 Greenplum 5 是一个功能齐全、动态的、创新型分析数据平台,其产品路线图规划健全且充满活力,无论是短期内还 是未来长期时间里,都能满足客户的需求。 支持多种云不受限于基础架构的数据平台 Pivotal Greenplum 5 是首个内核百分百基于 Greenplum 能够处理复杂得多 的 CTE,因为它不必将其完全展开,只需对其进行动态处理即可。GPORCA 生成 CTE 计划的速度比传统规划器优化器平 均要快 7 倍。6 要整理大型表中的数据,一种常见方法就是使用分区。Greenplum 5 采用 GPORCA 作为默认查询优化器,可确定消除与结 果无关的分区的经济方式,从而改进动态分区消除。这是通过引入以下三个新的查询操作符实现的,这三个操作符在生成 lector、DynamicScan 和 Sequence。通过在查询计划中放置 这些 PartitionSelector,GPORCA 可以支持更复杂的模式,例如基于相等和范围谓词的分区选择,以及动态分区消除。7 Greenplum 5 中的 ANALYZE 命令使用更快速的 PostgreSQL 实施来收集表统计数据,从而针对堆积优化表和附加优化表提 高其性能。系统会在单个查询中收集行示例,0 码力 | 9 页 | 690.33 KB | 1 年前3
 深度揭秘Greenplum开源数据库透明加密对运维安全无能为力 基于pgcypto的加密 • 可以满足数据安全要求 • 非原生方案 • 问题很多 基于pgcypto的数据加密方案 pgcypto Postgresql社区提供的一款简单加密插件 • https://www.postgresql.org/docs/13/pgcrypto.html • https://github.com/greenplum-db/gpdb/tree/m0 码力 | 48 页 | 10.19 MB | 1 年前3 深度揭秘Greenplum开源数据库透明加密对运维安全无能为力 基于pgcypto的加密 • 可以满足数据安全要求 • 非原生方案 • 问题很多 基于pgcypto的数据加密方案 pgcypto Postgresql社区提供的一款简单加密插件 • https://www.postgresql.org/docs/13/pgcrypto.html • https://github.com/greenplum-db/gpdb/tree/m0 码力 | 48 页 | 10.19 MB | 1 年前3
 Greenplum备份恢复浅析segment的数据一致性 但是,各个segment的数据设置隔离级别的动作存在时间差, 而master仍然接受新的事务,从而导致各个segment上的数 据不一致。我们可以通过实现barrier机制来避免这种情况: 1. 使数据库只读 2. 等待所有的事务全部提交,开始备份 3. 给pg_class加锁,等待每个segment备份时设置隔离级别 为串行化,恢复数据库为可读可写 并⾏备份恢复优化(3/3)0 码力 | 17 页 | 1.29 MB | 1 年前3 Greenplum备份恢复浅析segment的数据一致性 但是,各个segment的数据设置隔离级别的动作存在时间差, 而master仍然接受新的事务,从而导致各个segment上的数 据不一致。我们可以通过实现barrier机制来避免这种情况: 1. 使数据库只读 2. 等待所有的事务全部提交,开始备份 3. 给pg_class加锁,等待每个segment备份时设置隔离级别 为串行化,恢复数据库为可读可写 并⾏备份恢复优化(3/3)0 码力 | 17 页 | 1.29 MB | 1 年前3
共 15 条
- 1
- 2













