 Greenplum 6新特性:
在线扩容工具GPexpand剖析Greenplum 6新特性: 在线扩容工具GPexpand剖析 杜佳伦 (jdu@pivotal.io) 大纲 • Greenplum 集群部署 • GPExpand简介与具体用法 • Greenplum 6中GPExpand的改进与实现 Greenplum 集群部署 Greenplum 集群部署 • gp_segment_configuration 字段名 描述 dbid 个 表执行操作时也会按照numsegment值分配Gang ▪ 增加新节点后,对每个表做EXPAND后该值会随着改成新集群的大小 改进与实现 改进与实现 • EXPAND每个表 – 对表加最高级别锁(其他读写均被阻塞) – 移动数据到新节点 – 修改numsegments – 释放锁 改进与实现 • numsegments的收益 – 不需要将表改成随机分布,单表查询可以做优化 – 对0 码力 | 37 页 | 1.12 MB | 1 年前3 Greenplum 6新特性:
在线扩容工具GPexpand剖析Greenplum 6新特性: 在线扩容工具GPexpand剖析 杜佳伦 (jdu@pivotal.io) 大纲 • Greenplum 集群部署 • GPExpand简介与具体用法 • Greenplum 6中GPExpand的改进与实现 Greenplum 集群部署 Greenplum 集群部署 • gp_segment_configuration 字段名 描述 dbid 个 表执行操作时也会按照numsegment值分配Gang ▪ 增加新节点后,对每个表做EXPAND后该值会随着改成新集群的大小 改进与实现 改进与实现 • EXPAND每个表 – 对表加最高级别锁(其他读写均被阻塞) – 移动数据到新节点 – 修改numsegments – 释放锁 改进与实现 • numsegments的收益 – 不需要将表改成随机分布,单表查询可以做优化 – 对0 码力 | 37 页 | 1.12 MB | 1 年前3
 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 白皮书 4 白皮书 | 4 关于本白皮书 近日,Greenplum 社区和欧拉开源社区深化合作,在欧拉开源操作系统(openEuler, 简称“欧拉”)编译测试了高级分 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中 移植的分析数据库软件解决方案,可部署在不同操作系统、 不同芯片的环境,适合本地部署、多云环境(公有云和私有云)中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。0 码力 | 17 页 | 2.04 MB | 1 年前3 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 白皮书 4 白皮书 | 4 关于本白皮书 近日,Greenplum 社区和欧拉开源社区深化合作,在欧拉开源操作系统(openEuler, 简称“欧拉”)编译测试了高级分 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中 移植的分析数据库软件解决方案,可部署在不同操作系统、 不同芯片的环境,适合本地部署、多云环境(公有云和私有云)中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。0 码力 | 17 页 | 2.04 MB | 1 年前3
 Greenplum 精粹文集是:Greenplum 绝 不 仅 仅 只 是 简 单 的 等 同 于 “Postgresql+interconnect 并行调度 + 分布式事务两阶段提交”, Greenplum 还研发了非常多的高级数据分析管理功能和企业级管理模 块,如下这些功能都是 Postgresql 没有提供的: ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 按照文件切块后随机分配,节点和数据无耦合, 数据分布粒度在文件块级(缺省 64MB)。 ·MPP 采用 SQL 并行查询计划,Hadoop 采用 Mapreduce 框架。 基于以上不同,体现在效率、功能等特性方面也大不相同。 Big Date2.indd 12 16-11-22 下午3:38 Greenplum 精粹文集 13 1) 计算效率的比较 先说说 Mapreduce 技术。 SPARK、Impala、Hive,只能支 持其中的 1/3 左右。 Big Date2.indd 15 16-11-22 下午3:38 16 由于 HADOOP 本身 Append-only 的特性,SQL-On-Hadoop 大多不 支持数据局部更新和删除功能 (update/delete);例如 Spark 计算时, 需要预先将数据装载到 DataFrames 模型中; 基本上都缺少索引和存储过程等特征0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集是:Greenplum 绝 不 仅 仅 只 是 简 单 的 等 同 于 “Postgresql+interconnect 并行调度 + 分布式事务两阶段提交”, Greenplum 还研发了非常多的高级数据分析管理功能和企业级管理模 块,如下这些功能都是 Postgresql 没有提供的: ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 按照文件切块后随机分配,节点和数据无耦合, 数据分布粒度在文件块级(缺省 64MB)。 ·MPP 采用 SQL 并行查询计划,Hadoop 采用 Mapreduce 框架。 基于以上不同,体现在效率、功能等特性方面也大不相同。 Big Date2.indd 12 16-11-22 下午3:38 Greenplum 精粹文集 13 1) 计算效率的比较 先说说 Mapreduce 技术。 SPARK、Impala、Hive,只能支 持其中的 1/3 左右。 Big Date2.indd 15 16-11-22 下午3:38 16 由于 HADOOP 本身 Append-only 的特性,SQL-On-Hadoop 大多不 支持数据局部更新和删除功能 (update/delete);例如 Spark 计算时, 需要预先将数据装载到 DataFrames 模型中; 基本上都缺少索引和存储过程等特征0 码力 | 64 页 | 2.73 MB | 1 年前3
 Pivotal Greenplum 5: 新一代数据平台白皮书 Pivotal Greenplum 5: 新一代数据平台 开源、支持多种云的高级分析数据平台 作者:Keaton Adams、 Dan Baskette、 Cesar Rojas pivotal.io/cn 白皮书 2 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 目录 ........................................................................................... 8 其他功能特性 .................................................................................................. Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 关于本白皮书 Pivotal 最近推出全球第一个开源、支持多云的高级分析数据平台——Pivotal Greenplum 5。本白皮书着眼介绍 Greenplum 5 的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum 不0 码力 | 9 页 | 690.33 KB | 1 年前3 Pivotal Greenplum 5: 新一代数据平台白皮书 Pivotal Greenplum 5: 新一代数据平台 开源、支持多种云的高级分析数据平台 作者:Keaton Adams、 Dan Baskette、 Cesar Rojas pivotal.io/cn 白皮书 2 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 目录 ........................................................................................... 8 其他功能特性 .................................................................................................. Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 关于本白皮书 Pivotal 最近推出全球第一个开源、支持多云的高级分析数据平台——Pivotal Greenplum 5。本白皮书着眼介绍 Greenplum 5 的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum 不0 码力 | 9 页 | 690.33 KB | 1 年前3
 Greenplum Database 管理员指南 6.2.1已经历经了无数个版 本更新和迭代,编者也有了更多的感悟,放眼 GP 的中文资料,为之动容,就想着再为 GP 的发展壮大多做那么一点点贡献,挤出一点时间,重新梳理和打磨这个文档,并完 全根据最新的版本特性进行重新整理,希望能对中文爱好者提供一些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 分区的统计信息 .................................................................................. - 186 - Orca 特性与增强 ............................................................................................... ......................................................................................... - 228 - 高级聚合函数 ..............................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1已经历经了无数个版 本更新和迭代,编者也有了更多的感悟,放眼 GP 的中文资料,为之动容,就想着再为 GP 的发展壮大多做那么一点点贡献,挤出一点时间,重新梳理和打磨这个文档,并完 全根据最新的版本特性进行重新整理,希望能对中文爱好者提供一些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 分区的统计信息 .................................................................................. - 186 - Orca 特性与增强 ............................................................................................... ......................................................................................... - 228 - 高级聚合函数 ..............................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum 6: 混合负载的理想数据平台relational database are well-showcased 12 Pivotal Confidential–Internal Use Only 卓越的OLAP特性 列式存储 分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 完备生态、支撑核心生产系统 原始数据 按10x压缩率 1 2 3 4 Greenplum在摩根士丹利 OLTP - Online transaction processing - 联机事务处理 出色的OLTP特性 天生的优势 ● 行式存储 ● 索引 ● 直接分发 ● 完整的增删改 Greenplum 6 增强 ● 并发修改、删除 ● 系统性的优化事务和锁 26 Pivotal Confidential–Internal (192核单机部署 ,master+18 segments) 34 Pivotal Confidential–Internal Use Only TPC-B基准测试:UPDATE ■ 得益于并发更改特性 ■ 70倍的TPS提升 35 Pivotal Confidential–Internal Use Only TPC-B基准测试:INSERT ■ 峰值TPS提升3.6倍 36 Pivotal0 码力 | 52 页 | 4.48 MB | 1 年前3 Greenplum 6: 混合负载的理想数据平台relational database are well-showcased 12 Pivotal Confidential–Internal Use Only 卓越的OLAP特性 列式存储 分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 完备生态、支撑核心生产系统 原始数据 按10x压缩率 1 2 3 4 Greenplum在摩根士丹利 OLTP - Online transaction processing - 联机事务处理 出色的OLTP特性 天生的优势 ● 行式存储 ● 索引 ● 直接分发 ● 完整的增删改 Greenplum 6 增强 ● 并发修改、删除 ● 系统性的优化事务和锁 26 Pivotal Confidential–Internal (192核单机部署 ,master+18 segments) 34 Pivotal Confidential–Internal Use Only TPC-B基准测试:UPDATE ■ 得益于并发更改特性 ■ 70倍的TPS提升 35 Pivotal Confidential–Internal Use Only TPC-B基准测试:INSERT ■ 峰值TPS提升3.6倍 36 Pivotal0 码力 | 52 页 | 4.48 MB | 1 年前3
 Greenplum 介绍大大提高了产品的质量和客户的满意度。Greenplum 5.0 是开源之后发布的第一个稳定版本,大 约保持 1 个半月一个版本的发布速度。Greenplum 主干分支(master)开发非常活跃,众多社区 期待的特性稳健推进中,包括内核升级、新课题,处于业界领先地位。 Greenplum 社区邀请 Pivotal、阿里云、百度等社区人士共同定期举办各种技术研讨会、技术沙龙、 101 培训等活动,获得良好反馈。国内多所知名大学开设了 PgAdmin、Informatica、Cognos、SAS、Talend、Qlik、Tableau、Anaconda、 Microstrategy、Boundless、Zattset、Datometry 等,涵盖 ETL、商业智能、高级分析、可视化、 集成分析、GIS 数据处理、迁移、安全和管理等各个领域。 更多信息请访问 greenplum.cn。0 码力 | 3 页 | 220.42 KB | 1 年前3 Greenplum 介绍大大提高了产品的质量和客户的满意度。Greenplum 5.0 是开源之后发布的第一个稳定版本,大 约保持 1 个半月一个版本的发布速度。Greenplum 主干分支(master)开发非常活跃,众多社区 期待的特性稳健推进中,包括内核升级、新课题,处于业界领先地位。 Greenplum 社区邀请 Pivotal、阿里云、百度等社区人士共同定期举办各种技术研讨会、技术沙龙、 101 培训等活动,获得良好反馈。国内多所知名大学开设了 PgAdmin、Informatica、Cognos、SAS、Talend、Qlik、Tableau、Anaconda、 Microstrategy、Boundless、Zattset、Datometry 等,涵盖 ETL、商业智能、高级分析、可视化、 集成分析、GIS 数据处理、迁移、安全和管理等各个领域。 更多信息请访问 greenplum.cn。0 码力 | 3 页 | 220.42 KB | 1 年前3
 Greenplum 分布式数据库内核揭秘100 个节点的集群上,每 个节点仅保存总数据量的 1/100,100 个节点同时并行处理,性能会是单个配置更强节点的几十倍。 Greenplum 不仅仅实现了基本的分布式数据存储,还提供了更高级更灵活的特性,譬如多种分布 策略、多级分区以及多态存储。 分布式数据存储 Confidential │ ©2021 VMware, Inc. 9 Greenplum 6 提供了以下 3 种数据分布策略:0 码力 | 31 页 | 3.95 MB | 1 年前3 Greenplum 分布式数据库内核揭秘100 个节点的集群上,每 个节点仅保存总数据量的 1/100,100 个节点同时并行处理,性能会是单个配置更强节点的几十倍。 Greenplum 不仅仅实现了基本的分布式数据存储,还提供了更高级更灵活的特性,譬如多种分布 策略、多级分区以及多态存储。 分布式数据存储 Confidential │ ©2021 VMware, Inc. 9 Greenplum 6 提供了以下 3 种数据分布策略:0 码力 | 31 页 | 3.95 MB | 1 年前3
 Greenplum机器学习⼯具集和案例• 更好的可扩展性 • 算法随着数据扩充而线性扩展 • 更高的预测精准度 • 适用更多数据,而不是抽样 • 顶级 ASF 开源项目 • 社区驱动开发模式 MADlib 特性 2017.thegiac.com 客户端 数据库服务器器 Master Segment 1 Segment 2 Segment n … SQL 存储过程 结果集 考虑转换到Teradata ✓ 决定增加Greenplum Cluster数量 案例例优化总结 2017.thegiac.com Pivotal Greenplum: 开源⼤大数据 ⾼高级分析平台0 码力 | 58 页 | 1.97 MB | 1 年前3 Greenplum机器学习⼯具集和案例• 更好的可扩展性 • 算法随着数据扩充而线性扩展 • 更高的预测精准度 • 适用更多数据,而不是抽样 • 顶级 ASF 开源项目 • 社区驱动开发模式 MADlib 特性 2017.thegiac.com 客户端 数据库服务器器 Master Segment 1 Segment 2 Segment n … SQL 存储过程 结果集 考虑转换到Teradata ✓ 决定增加Greenplum Cluster数量 案例例优化总结 2017.thegiac.com Pivotal Greenplum: 开源⼤大数据 ⾼高级分析平台0 码力 | 58 页 | 1.97 MB | 1 年前3
 Greenplum 编译安装和调试Redhat/Centos/SuSE/Ubuntu 等Linux系统。大量开发人员包括我自己 使用Mac系统,但是不在官方支持列表中。 1.1 在 Mac 系统上编译 首先需要关闭苹果操作系统的 SIP 特性,否则无法初始化集群。 1. 重启操作系统 2. 重启过程中按下 command+R 进入恢复模式 3. 从 Utilities 菜单选择 Terminal 4. 执行 csrutil 的进程号。 常用的方法是通过执行2次 SQL,获得 QE 的进程号。 Greenplum 为了提高效率,降低创建 Gang/QEs 的代价,通常会重用已经创建的Gang/QEs。利 用这一特性,可以方便的找到每个 segment上 QE 的pid。 先执行一次想要调试的 SQL。然后使用下面的命令找出感兴趣的 QE 的pid。 这个例子中进程38965是 QD 进程,412100 码力 | 15 页 | 2.07 MB | 1 年前3 Greenplum 编译安装和调试Redhat/Centos/SuSE/Ubuntu 等Linux系统。大量开发人员包括我自己 使用Mac系统,但是不在官方支持列表中。 1.1 在 Mac 系统上编译 首先需要关闭苹果操作系统的 SIP 特性,否则无法初始化集群。 1. 重启操作系统 2. 重启过程中按下 command+R 进入恢复模式 3. 从 Utilities 菜单选择 Terminal 4. 执行 csrutil 的进程号。 常用的方法是通过执行2次 SQL,获得 QE 的进程号。 Greenplum 为了提高效率,降低创建 Gang/QEs 的代价,通常会重用已经创建的Gang/QEs。利 用这一特性,可以方便的找到每个 segment上 QE 的pid。 先执行一次想要调试的 SQL。然后使用下面的命令找出感兴趣的 QE 的pid。 这个例子中进程38965是 QD 进程,412100 码力 | 15 页 | 2.07 MB | 1 年前3
共 17 条
- 1
- 2













