 Greenplum Database 管理员指南 6.2.1些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 6 版本都带来了极大 的性能和稳定性的提升。 声明 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部分内容都经过编者重新考量和实测验证,有些观点与官方手册有 出入,仅代表编者本人 致读者 如果您在阅读和参考本书的过程中发现有任何不妥之处,或者有任何的建议和意见, 欢迎联系编者,本书主要针对 GP 数据库的爱好者进行编写,包括产品的安装和使用说 明,以及最佳实践等内容。本书的发布更新情况与编者的时间有关,不做承诺。 编写: 陈淼 电邮: miaochen@mail.ustc.edu.cn Greenplum Database 管理员指南 V6.2.1 .......................................................................................... - 24 - 创建用户 User Role ......................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 6 版本都带来了极大 的性能和稳定性的提升。 声明 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部分内容都经过编者重新考量和实测验证,有些观点与官方手册有 出入,仅代表编者本人 致读者 如果您在阅读和参考本书的过程中发现有任何不妥之处,或者有任何的建议和意见, 欢迎联系编者,本书主要针对 GP 数据库的爱好者进行编写,包括产品的安装和使用说 明,以及最佳实践等内容。本书的发布更新情况与编者的时间有关,不做承诺。 编写: 陈淼 电邮: miaochen@mail.ustc.edu.cn Greenplum Database 管理员指南 V6.2.1 .......................................................................................... - 24 - 创建用户 User Role ......................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商38 39 39 39 40 43 44 45 46 47 ⽬录 ⽬录 ⽬录 ⽬录 概览 概览 产品架构 产品架构 云数据仓库产品架构 ⾼可⽤ 快速上⼿ 快速上⼿ ⼀、创建数据仓库 ⼆、连接数据仓库 操作指南 操作指南 关闭数据仓库 启动数据仓库 重启数据仓库 查看数据仓库详情 扩容数据仓库 更改数据仓库密码 续费 删除数据仓库 查看操作⽇志 查看监控 Json相关函数 Json创建函数 Json处理函数 接⼊第三⽅ 接⼊第三⽅ BI ⼯具 ⼯具 ⼀、 UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例 使⽤案例 案例⼀ 利⽤ logstash+Kafka+UDW 对⽇志数据分析 案例⼆ 基于UDW实现⽹络流分析 PXF 扩展 扩展 配置 PXF 服务 创建 EXTENSION 读写 HDFS 外部表迁移数据 外部表迁移数据 1. 在原 greenplum 集群中创建 hdfs pxf 可写外部表 2. 将原 greenplum 集群表数据写⼊ hdfs 3. 在⽬的 greenplum 集群中创建 hdfs pxf 可读表 4. 从 hdfs 外部表中读取数据并写⼊⽬的 greenplum 集群 FAQs 创建好数据仓库之后怎么连接到UDW? UDW⽀持从mysql导⼊数据吗?0 码力 | 206 页 | 5.35 MB | 1 年前3 Greenplum数据仓库UDW - UCloud中立云计算服务商38 39 39 39 40 43 44 45 46 47 ⽬录 ⽬录 ⽬录 ⽬录 概览 概览 产品架构 产品架构 云数据仓库产品架构 ⾼可⽤ 快速上⼿ 快速上⼿ ⼀、创建数据仓库 ⼆、连接数据仓库 操作指南 操作指南 关闭数据仓库 启动数据仓库 重启数据仓库 查看数据仓库详情 扩容数据仓库 更改数据仓库密码 续费 删除数据仓库 查看操作⽇志 查看监控 Json相关函数 Json创建函数 Json处理函数 接⼊第三⽅ 接⼊第三⽅ BI ⼯具 ⼯具 ⼀、 UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例 使⽤案例 案例⼀ 利⽤ logstash+Kafka+UDW 对⽇志数据分析 案例⼆ 基于UDW实现⽹络流分析 PXF 扩展 扩展 配置 PXF 服务 创建 EXTENSION 读写 HDFS 外部表迁移数据 外部表迁移数据 1. 在原 greenplum 集群中创建 hdfs pxf 可写外部表 2. 将原 greenplum 集群表数据写⼊ hdfs 3. 在⽬的 greenplum 集群中创建 hdfs pxf 可读表 4. 从 hdfs 外部表中读取数据并写⼊⽬的 greenplum 集群 FAQs 创建好数据仓库之后怎么连接到UDW? UDW⽀持从mysql导⼊数据吗?0 码力 | 206 页 | 5.35 MB | 1 年前3
 Greenplum 新一代数据管理和数据分析解决方案“大铁箱” • 大磁盘 过去Google™ 曾经用来实现信息搜索功能的技术, 现在被Greenplum用于数据仓库 现在的解决方案 12 Greenplum愿景:企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险 源文件 源数据 源数据 源文件 数据仓库和分析应 通过Greenplum超级数据处 理引擎增强竞争优势 Greenplum数据引擎:内容和方式 价值主张 – 性价比: 性能可达到传统方案(Oracle、Teradata)的 10到100倍, 而成本只是其一小部分 – 可伸缩性:从较低的万亿字节扩展到千万亿字节 – 开放式系统:在通用系统和开放源软件的基础上创建 前提条件 – 硬件:基于开放式标准硬件 – 软件:Postgres和Greenplum 将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 业务问题 • 改进定位广告 • 竞争对手 • Teradata, Oracle • 数据规模 • 1万亿行事实数据表,每天增加0 码力 | 45 页 | 2.07 MB | 1 年前3 Greenplum 新一代数据管理和数据分析解决方案“大铁箱” • 大磁盘 过去Google™ 曾经用来实现信息搜索功能的技术, 现在被Greenplum用于数据仓库 现在的解决方案 12 Greenplum愿景:企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险 源文件 源数据 源数据 源文件 数据仓库和分析应 通过Greenplum超级数据处 理引擎增强竞争优势 Greenplum数据引擎:内容和方式 价值主张 – 性价比: 性能可达到传统方案(Oracle、Teradata)的 10到100倍, 而成本只是其一小部分 – 可伸缩性:从较低的万亿字节扩展到千万亿字节 – 开放式系统:在通用系统和开放源软件的基础上创建 前提条件 – 硬件:基于开放式标准硬件 – 软件:Postgres和Greenplum 将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 业务问题 • 改进定位广告 • 竞争对手 • Teradata, Oracle • 数据规模 • 1万亿行事实数据表,每天增加0 码力 | 45 页 | 2.07 MB | 1 年前3
 Greenplum 编译安装和调试| g20 | 25443 2. 初始化 Greenplum 集群 前面编译部分介绍了如何使用 Greenplum 源代码中的 demo 集群脚本创建集群。这种方法简单快 捷,然而屏蔽了很多细节。 2.1 手工集群初始化 下面介绍如何手工部署一个单机集群:在一台笔记本上安装一个Greenplum的集群,包括一个 master,两个segments。 ExecAgg 获得下一个 tuple。 ExecMotion() 等待来自于 Segment 的结果。结果类型为 TupleTableSlot,执行到 ExecMotion 返回时可以看 返回的结果内容。 (lldb) print tup2str(result) (char *) $16 = 0x00007fe7e3014060 "\t 1: pg_backend_pid() 获得,因为该pid是 QD 的进程号。 常用的方法是通过执行2次 SQL,获得 QE 的进程号。 Greenplum 为了提高效率,降低创建 Gang/QEs 的代价,通常会重用已经创建的Gang/QEs。利 用这一特性,可以方便的找到每个 segment上 QE 的pid。 先执行一次想要调试的 SQL。然后使用下面的命令找出感兴趣的 QE 的pid。0 码力 | 15 页 | 2.07 MB | 1 年前3 Greenplum 编译安装和调试| g20 | 25443 2. 初始化 Greenplum 集群 前面编译部分介绍了如何使用 Greenplum 源代码中的 demo 集群脚本创建集群。这种方法简单快 捷,然而屏蔽了很多细节。 2.1 手工集群初始化 下面介绍如何手工部署一个单机集群:在一台笔记本上安装一个Greenplum的集群,包括一个 master,两个segments。 ExecAgg 获得下一个 tuple。 ExecMotion() 等待来自于 Segment 的结果。结果类型为 TupleTableSlot,执行到 ExecMotion 返回时可以看 返回的结果内容。 (lldb) print tup2str(result) (char *) $16 = 0x00007fe7e3014060 "\t 1: pg_backend_pid() 获得,因为该pid是 QD 的进程号。 常用的方法是通过执行2次 SQL,获得 QE 的进程号。 Greenplum 为了提高效率,降低创建 Gang/QEs 的代价,通常会重用已经创建的Gang/QEs。利 用这一特性,可以方便的找到每个 segment上 QE 的pid。 先执行一次想要调试的 SQL。然后使用下面的命令找出感兴趣的 QE 的pid。0 码力 | 15 页 | 2.07 MB | 1 年前3
 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 3 白皮书 | 3 Greenplum 参与欧拉开源社区的贡献内容 .................................................................................................. SP2 软件仓库中引入 Greenplum 6.17.0 版本 仓库:https://gitee.com/src-openeuler/gpdb Greenplum 参与欧拉开源社区的贡献内容 Greenplum 中文社区通过 RPM 软件包方式进入欧拉开源社区软件仓库,yum install 即可安装 Greenplum。提要易 用性。同时 Greenplum ORCA 查询优化器的 本着开源精神,本次合作和贡献完全遵守双方开源社区流程进行,以社区讨论和提交 PR 的方式成功运作。合作参与 方为 Greenplum 中文社区开发者和 openEuler DB SIG。下面对工作内容做简要的介绍: 1. Greenplum 社区上游(Github)发布包引入 此次参与欧拉操作系统构建和发布的包来自 Greenplum 社区发布包(6.17.0-src-full.tar0 码力 | 17 页 | 2.04 MB | 1 年前3 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 3 白皮书 | 3 Greenplum 参与欧拉开源社区的贡献内容 .................................................................................................. SP2 软件仓库中引入 Greenplum 6.17.0 版本 仓库:https://gitee.com/src-openeuler/gpdb Greenplum 参与欧拉开源社区的贡献内容 Greenplum 中文社区通过 RPM 软件包方式进入欧拉开源社区软件仓库,yum install 即可安装 Greenplum。提要易 用性。同时 Greenplum ORCA 查询优化器的 本着开源精神,本次合作和贡献完全遵守双方开源社区流程进行,以社区讨论和提交 PR 的方式成功运作。合作参与 方为 Greenplum 中文社区开发者和 openEuler DB SIG。下面对工作内容做简要的介绍: 1. Greenplum 社区上游(Github)发布包引入 此次参与欧拉操作系统构建和发布的包来自 Greenplum 社区发布包(6.17.0-src-full.tar0 码力 | 17 页 | 2.04 MB | 1 年前3
 Greenplum 精粹文集业务数据的导出、传输、 导入,以及 70TB 左右的索引数据创建,实际停机时间大约 3 天左右。 第二次扩容则到了上百节点。考虑到升级操作的可控性并缩短升级和 扩容时间,仍然采用新初始化集群的方案操作,在同一集群中初始化 了一个新数据库,将数据从旧库导出后,再导入新库。该方案在 2 天 之内完成 57TB 压缩数据的加载和 130TB 索引数据的创建。 随着中国大数据市场的井喷 趋势,作为中国第一代大数 pgcrypto 扩 展 包 加密Greenplum中数据的指导。 虽然本方法在许多情况下都适 用,但是使用 pgcrypto 加密静 态数据会比较麻烦,具体取决 于组织和用户的需求。例如,你必须首先使用 GPG 创建密匙才能利用 pgcrypto 扩展包加密纯文本 / 字节,然后利用密匙对每个 INSERT 执 行如下的 SQL 命令。 Big Date2.indd 50 16-11-22 下午3:38 能将访问策略以应用、确定用户的数据访问权限,并根据策略解密和 掩盖数据。 Big Date2.indd 51 16-11-22 下午3:38 52 这些策略在集中的 Protegrity 企业安全管理员(ESA)服务中创建, 并与用户有关,可向数据安全管理员提供一个中心点以便维护各个平 台的数据策略。这样一来,管理员无需登录数据库就可以更改策略。 此外,ESA 还可帮助划分权限,确保操作用户在未获得安全管理员许 可的情况下不能访问数据。0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集业务数据的导出、传输、 导入,以及 70TB 左右的索引数据创建,实际停机时间大约 3 天左右。 第二次扩容则到了上百节点。考虑到升级操作的可控性并缩短升级和 扩容时间,仍然采用新初始化集群的方案操作,在同一集群中初始化 了一个新数据库,将数据从旧库导出后,再导入新库。该方案在 2 天 之内完成 57TB 压缩数据的加载和 130TB 索引数据的创建。 随着中国大数据市场的井喷 趋势,作为中国第一代大数 pgcrypto 扩 展 包 加密Greenplum中数据的指导。 虽然本方法在许多情况下都适 用,但是使用 pgcrypto 加密静 态数据会比较麻烦,具体取决 于组织和用户的需求。例如,你必须首先使用 GPG 创建密匙才能利用 pgcrypto 扩展包加密纯文本 / 字节,然后利用密匙对每个 INSERT 执 行如下的 SQL 命令。 Big Date2.indd 50 16-11-22 下午3:38 能将访问策略以应用、确定用户的数据访问权限,并根据策略解密和 掩盖数据。 Big Date2.indd 51 16-11-22 下午3:38 52 这些策略在集中的 Protegrity 企业安全管理员(ESA)服务中创建, 并与用户有关,可向数据安全管理员提供一个中心点以便维护各个平 台的数据策略。这样一来,管理员无需登录数据库就可以更改策略。 此外,ESA 还可帮助划分权限,确保操作用户在未获得安全管理员许 可的情况下不能访问数据。0 码力 | 64 页 | 2.73 MB | 1 年前3
 Pivotal Greenplum 最佳实践分享载管理性能 设置办法:修改local脚本 For SUSE /etc/init.d/boot.local For RHLE /etc/rc.d/rc.local 追加内容: blockdev --setra 16384 /dev/sd* for i in /sys/block/sd*/queue/scheduler;do echo deadline > $i;done 计划的优劣有很大影响;  对于字段数较多的表,可关闭gp_autostate_mode (on_no_stats=>none),仅对必要列执行Analyze, 只在结果中返回的列无需收集统计信息;  对于频繁创建表删表的系统,可关闭gp_autostate_mode(on_no_stats=> on_change) ,数据变化量达 到一定阀值才收集统计信息; – gp_autostats_mode = on_change  Greenplum运维常用命令  Greenplum日常检查和故障处理  Greenplum项目经验分享 日常巡检事项  建议定期(每日一次或多次)对系统进行巡检,巡检内容包括:  检查GP总体运行状态 – psql登录数据库,执行select count(*) from gp_toolkit.__gp_user_tables; – 登录数据库,执行Checkpoint0 码力 | 41 页 | 1.42 MB | 1 年前3 Pivotal Greenplum 最佳实践分享载管理性能 设置办法:修改local脚本 For SUSE /etc/init.d/boot.local For RHLE /etc/rc.d/rc.local 追加内容: blockdev --setra 16384 /dev/sd* for i in /sys/block/sd*/queue/scheduler;do echo deadline > $i;done 计划的优劣有很大影响;  对于字段数较多的表,可关闭gp_autostate_mode (on_no_stats=>none),仅对必要列执行Analyze, 只在结果中返回的列无需收集统计信息;  对于频繁创建表删表的系统,可关闭gp_autostate_mode(on_no_stats=> on_change) ,数据变化量达 到一定阀值才收集统计信息; – gp_autostats_mode = on_change  Greenplum运维常用命令  Greenplum日常检查和故障处理  Greenplum项目经验分享 日常巡检事项  建议定期(每日一次或多次)对系统进行巡检,巡检内容包括:  检查GP总体运行状态 – psql登录数据库,执行select count(*) from gp_toolkit.__gp_user_tables; – 登录数据库,执行Checkpoint0 码力 | 41 页 | 1.42 MB | 1 年前3
 Greenplum数据库架构分析及5.x新功能分享3A Segment 3B Segment 3C Segment 3D Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D Segment 1A Segment 1B Segment 1C 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D 分布和分区 SELECT COUNT(*) FROM orders WHERE order_date >= ‘Oct 20 2007’ AND order_date < ‘Oct 27 2007’ 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D 10 Pivotal Confidential–Inter nal Use Only 多级分区存储 • 哈希Distribution:数据均 匀的分布到各个数据节点 • 范围分区: 数据节点内部,0 码力 | 44 页 | 8.35 MB | 1 年前3 Greenplum数据库架构分析及5.x新功能分享3A Segment 3B Segment 3C Segment 3D Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D Segment 1A Segment 1B Segment 1C 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D 分布和分区 SELECT COUNT(*) FROM orders WHERE order_date >= ‘Oct 20 2007’ AND order_date < ‘Oct 27 2007’ 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D 10 Pivotal Confidential–Inter nal Use Only 多级分区存储 • 哈希Distribution:数据均 匀的分布到各个数据节点 • 范围分区: 数据节点内部,0 码力 | 44 页 | 8.35 MB | 1 年前3
 Greenplum 6: 混合负载的理想数据平台Segment 1D Segment 2A Segment 2B Segment 2D Segment 3A Segment 3B Segment 2C Segment 3C Segment 3D 分区 SELECT COUNT(*) FROM orders WHERE order_date >= ‘Oct 1 2007’ AND order_date <= ‘Oct 31 2007’ 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D 15 Pivotal Confidential–Internal Use Only 递归查询 表‘SALES’ 表‘SALES’ ■ 层次结构 ■ 树状结构 WITH RECURSIVE 3C Segment 3D 直接分发 SELECT * FROM orders WHERE id = 1; Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D UPDATE orders0 码力 | 52 页 | 4.48 MB | 1 年前3 Greenplum 6: 混合负载的理想数据平台Segment 1D Segment 2A Segment 2B Segment 2D Segment 3A Segment 3B Segment 2C Segment 3C Segment 3D 分区 SELECT COUNT(*) FROM orders WHERE order_date >= ‘Oct 1 2007’ AND order_date <= ‘Oct 31 2007’ 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D 15 Pivotal Confidential–Internal Use Only 递归查询 表‘SALES’ 表‘SALES’ ■ 层次结构 ■ 树状结构 WITH RECURSIVE 3C Segment 3D 直接分发 SELECT * FROM orders WHERE id = 1; Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D UPDATE orders0 码力 | 52 页 | 4.48 MB | 1 年前3
 并行不悖- OLAP 在互联网公司的实践与思考六 22 Greenplum运维体系 环境创建与部署 • 部署流程 Ø 规划部署方案 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系 环境创建与部署 • 部署注意点 Ø 资源要充足(ETL,管理节点,数据节点,数据集市) Ø避免高频率的insert、update操作 Ø避免频繁执行高内存消耗的会话 Ø避免出现死锁 Ø可以在适当的时候执行 vaccum 操作 Ø避免直接在Greenplum执行消耗session会话的操作 Ø尽量不创建索引 • 上线与调度规范 Ø上线的程序,必须要经过测试,才可以生产使用 Ø调度程序需考虑每个任务的前后关系,时间富裕 Ø避免因为过于追求并行度,对多个任务造成相互影响 38 Greenplum现状说明0 码力 | 43 页 | 9.66 MB | 1 年前3 并行不悖- OLAP 在互联网公司的实践与思考六 22 Greenplum运维体系 环境创建与部署 • 部署流程 Ø 规划部署方案 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系 环境创建与部署 • 部署注意点 Ø 资源要充足(ETL,管理节点,数据节点,数据集市) Ø避免高频率的insert、update操作 Ø避免频繁执行高内存消耗的会话 Ø避免出现死锁 Ø可以在适当的时候执行 vaccum 操作 Ø避免直接在Greenplum执行消耗session会话的操作 Ø尽量不创建索引 • 上线与调度规范 Ø上线的程序,必须要经过测试,才可以生产使用 Ø调度程序需考虑每个任务的前后关系,时间富裕 Ø避免因为过于追求并行度,对多个任务造成相互影响 38 Greenplum现状说明0 码力 | 43 页 | 9.66 MB | 1 年前3
共 31 条
- 1
- 2
- 3
- 4













