 Greenplum数据仓库UDW - UCloud中立云计算服务商Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 37/206 操作指南 操作指南 关闭数据仓库 关闭数据仓库 当数据仓库创建成功之后处于运⾏状态,可以在数据仓库列表⻚中关闭数据仓库。 操作指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 38/206 启动数据仓库 启动数据仓库 参⻅关闭数据仓库 Copyright © 2012-2021 UCloud 优刻得 92/206 6.1 创建分区表 创建分区表 创建分区变需要注意以下问题: 确定分区策略:按照⽇期分区、按照数值分区、按照⼀个列表值分区 选择需要做分区的列 选择创建表格⽅式(heap表 ,append表、按列存储的表) 6.1.1 按照⽇期创建分区表 按照⽇期创建分区表 ⽇期划分的分区表使⽤⼀个⽇期或时间戳列做为分区键值列。可以按天或者按⽉进⾏分析。 PARTITION extra ); 6.1.3 按照列表值创建分区表 按照列表值创建分区表 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 96/206 使⽤列表值进⾏分区的表可以选⽤任何⽀持等值⽐较的数据类型列做为分区键值列。对于列表值分区来说,您必须为每⼀个要创建的分区指定对应的列表值。例如下⾯根据地区进⾏分区: CREATE TABLE0 码力 | 206 页 | 5.35 MB | 1 年前3 Greenplum数据仓库UDW - UCloud中立云计算服务商Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 37/206 操作指南 操作指南 关闭数据仓库 关闭数据仓库 当数据仓库创建成功之后处于运⾏状态,可以在数据仓库列表⻚中关闭数据仓库。 操作指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 38/206 启动数据仓库 启动数据仓库 参⻅关闭数据仓库 Copyright © 2012-2021 UCloud 优刻得 92/206 6.1 创建分区表 创建分区表 创建分区变需要注意以下问题: 确定分区策略:按照⽇期分区、按照数值分区、按照⼀个列表值分区 选择需要做分区的列 选择创建表格⽅式(heap表 ,append表、按列存储的表) 6.1.1 按照⽇期创建分区表 按照⽇期创建分区表 ⽇期划分的分区表使⽤⼀个⽇期或时间戳列做为分区键值列。可以按天或者按⽉进⾏分析。 PARTITION extra ); 6.1.3 按照列表值创建分区表 按照列表值创建分区表 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 96/206 使⽤列表值进⾏分区的表可以选⽤任何⽀持等值⽐较的数据类型列做为分区键值列。对于列表值分区来说,您必须为每⼀个要创建的分区指定对应的列表值。例如下⾯根据地区进⾏分区: CREATE TABLE0 码力 | 206 页 | 5.35 MB | 1 年前3
 Greenplum Database 管理员指南 6.2.1..................................................................................... - 84 - 查看数据库列表 .................................................................................................. 远程编辑服务器配置 1. 连接到需要修改的数据库。如果连接了多个数据库,要确保已经选中需要修改的数 据库。 2. 选择[工具]>[服务器配置]>postgresql.conf菜单。配置信息将会以列表的形 式打开。 3. 双击需要修改的参数打开一个参数设置对话框。 4. 输入参数的新值。修改好之后点击[确定]按钮保存修改,或者点击[取消]按钮放 弃修改。 5. 如果修改的 =# CREATE DATABASE new_dbname TEMPLATE old_dbname; 查看数据库列表 在psql客户端程序中,直接使用\l指令查看GP中包含模版书籍库在内的所有 Database的列表。使用其他客户端程序时,可以通过查询pg_database系统表来得 到。例如: =# SELECT datname from pg_database;0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1..................................................................................... - 84 - 查看数据库列表 .................................................................................................. 远程编辑服务器配置 1. 连接到需要修改的数据库。如果连接了多个数据库,要确保已经选中需要修改的数 据库。 2. 选择[工具]>[服务器配置]>postgresql.conf菜单。配置信息将会以列表的形 式打开。 3. 双击需要修改的参数打开一个参数设置对话框。 4. 输入参数的新值。修改好之后点击[确定]按钮保存修改,或者点击[取消]按钮放 弃修改。 5. 如果修改的 =# CREATE DATABASE new_dbname TEMPLATE old_dbname; 查看数据库列表 在psql客户端程序中,直接使用\l指令查看GP中包含模版书籍库在内的所有 Database的列表。使用其他客户端程序时,可以通过查询pg_database系统表来得 到。例如: =# SELECT datname from pg_database;0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum 精粹文集·分布式存储数据在多个节点服务器上 ·采用分布式并行计算框架 ·支持横向扩展来提高整体的计算能力和存储容量 ·都支持 X86 开放集群架构 但两种技术在数据存储和计算方法上,也存在很多显而易见的差异: ·MPP 按照关系数据库行列表方式存储数据(有模式),Hadoop 按照文件切片方式分布式存储(无模式)。 ·两者采用的数据分布机制不同,MPP 采用 Hash 分布,计算节点 和存储紧密耦合,数据分布粒度在记录级的更小粒度(一般在 的数据在计算前未经整理和组织(只是做了简单数据 分块,数据无模式),而 MPP 预先会把数据有效的组织(有模式), 例如:行列表关系、Hash 分布、索引、分区、列存储等、统计信 息收集等,这就决定了在计算过程中效率大为不同: ·MAP 效率对比 Hadoop 的 MAP 阶段需要对数据再解析,而 MPP 数据库则会直接 取行列表,效率高。 Hadoop 按 64MB 拆分文件,而且数据不能保证在所有节点都均匀 分布,因此,MAP0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集·分布式存储数据在多个节点服务器上 ·采用分布式并行计算框架 ·支持横向扩展来提高整体的计算能力和存储容量 ·都支持 X86 开放集群架构 但两种技术在数据存储和计算方法上,也存在很多显而易见的差异: ·MPP 按照关系数据库行列表方式存储数据(有模式),Hadoop 按照文件切片方式分布式存储(无模式)。 ·两者采用的数据分布机制不同,MPP 采用 Hash 分布,计算节点 和存储紧密耦合,数据分布粒度在记录级的更小粒度(一般在 的数据在计算前未经整理和组织(只是做了简单数据 分块,数据无模式),而 MPP 预先会把数据有效的组织(有模式), 例如:行列表关系、Hash 分布、索引、分区、列存储等、统计信 息收集等,这就决定了在计算过程中效率大为不同: ·MAP 效率对比 Hadoop 的 MAP 阶段需要对数据再解析,而 MPP 数据库则会直接 取行列表,效率高。 Hadoop 按 64MB 拆分文件,而且数据不能保证在所有节点都均匀 分布,因此,MAP0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum 分布式数据库内核揭秘范围分区:根据某个列的时间范围或者数值范围对数据进行分区。譬如以下 SQL 将创建一个按天分区的 分区表,将 2021-01-01 到 2022-01-01 这一年的数据分成 366 个分区: l 列表分区:按照某个列的数值列表,将数据分到不同的分区。譬如以下 SQL 将根据性别创建一个分区表, 共有 3 个分区: 一个分区存储男士数据,一个分区存储女士数据。对于其它值譬如 NULL,在存储在默认 分区 others0 码力 | 31 页 | 3.95 MB | 1 年前3 Greenplum 分布式数据库内核揭秘范围分区:根据某个列的时间范围或者数值范围对数据进行分区。譬如以下 SQL 将创建一个按天分区的 分区表,将 2021-01-01 到 2022-01-01 这一年的数据分成 366 个分区: l 列表分区:按照某个列的数值列表,将数据分到不同的分区。譬如以下 SQL 将根据性别创建一个分区表, 共有 3 个分区: 一个分区存储男士数据,一个分区存储女士数据。对于其它值譬如 NULL,在存储在默认 分区 others0 码力 | 31 页 | 3.95 MB | 1 年前3
 Greenplum 编译安装和调试从源代码编译 Greenplum Greenplum 目前官方支持 Redhat/Centos/SuSE/Ubuntu 等Linux系统。大量开发人员包括我自己 使用Mac系统,但是不在官方支持列表中。 1.1 在 Mac 系统上编译 首先需要关闭苹果操作系统的 SIP 特性,否则无法初始化集群。 1. 重启操作系统 2. 重启过程中按下 command+R 进入恢复模式 3 如上图所示,可以通过 IDE 很直观的看到正在执行的代码片段,以及函数中变量的值。对于学习 和调试Greenplum非常有帮助。 5. 问题讨论 如果遇到问题无法解决,优先建议到 gpdb-dev 邮件列表讨论,或者在github上面报告Issues (https://github.com/greenplum-db/gpdb/issues). 欢迎加入 Greenplum 中文社区, https://greenplum0 码力 | 15 页 | 2.07 MB | 1 年前3 Greenplum 编译安装和调试从源代码编译 Greenplum Greenplum 目前官方支持 Redhat/Centos/SuSE/Ubuntu 等Linux系统。大量开发人员包括我自己 使用Mac系统,但是不在官方支持列表中。 1.1 在 Mac 系统上编译 首先需要关闭苹果操作系统的 SIP 特性,否则无法初始化集群。 1. 重启操作系统 2. 重启过程中按下 command+R 进入恢复模式 3 如上图所示,可以通过 IDE 很直观的看到正在执行的代码片段,以及函数中变量的值。对于学习 和调试Greenplum非常有帮助。 5. 问题讨论 如果遇到问题无法解决,优先建议到 gpdb-dev 邮件列表讨论,或者在github上面报告Issues (https://github.com/greenplum-db/gpdb/issues). 欢迎加入 Greenplum 中文社区, https://greenplum0 码力 | 15 页 | 2.07 MB | 1 年前3
 Greenplum 介绍的优势,提高了分析的效率;MADlib 可 以在全量数据而不是抽样数据上进行分析,提高了精度。 ● 开放源代码且持续大力投入的平台: 2017 年 Pivotal 在 github 的开源贡献列表中全球排 名第四左右。 采用开源方案,不担心后门问题,不担心被锁定。开源还可以构建更好的 生态。 ● 采用敏捷软件开发方法开发的平台:Greenplum 采用敏捷方法开发,实现了快速迭代、持0 码力 | 3 页 | 220.42 KB | 1 年前3 Greenplum 介绍的优势,提高了分析的效率;MADlib 可 以在全量数据而不是抽样数据上进行分析,提高了精度。 ● 开放源代码且持续大力投入的平台: 2017 年 Pivotal 在 github 的开源贡献列表中全球排 名第四左右。 采用开源方案,不担心后门问题,不担心被锁定。开源还可以构建更好的 生态。 ● 采用敏捷软件开发方法开发的平台:Greenplum 采用敏捷方法开发,实现了快速迭代、持0 码力 | 3 页 | 220.42 KB | 1 年前3
共 6 条
- 1













