 Greenplum Database 管理员指南 6.2.1gpfdist 协议外部表导出数据 ................................................................... - 258 - 使用基于命令的 WEB 型外部表导出数据 ............................................................. - 259 - 使用 COPY 命令导入导出 ...  为每个登录的 User 分配不同的 Role。出于登录和审计的需要,每个被允许登录 到 GP 的使用者都应该分配一个属于自己的 Role。对于应用程序(APP)或者 Web 应用 来说,应该考虑为每个 APP 或者 Web Server 创建独立的 Role。  使用 Group 来管理访问权限。当登录的用户数量较多,且经常需要为类似的用户 授予类似的权限时,可以通过 Group 小时格式的时间) TIME '02:00 PM' (12 小时格式的时间) TIME '02:00' (24 小时格式的时间) 其等价于 TIME '02:00 AM' 注意:时间约束是强制以服务器时间为准的。时区信息会被忽略。 指定时间段 要指定限制访问的时间段,需要两个[日期/时间]来确定,且通过 BETWEEN 和 AND 关键字连接。DAY 是必须的。 BETWEEN0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1gpfdist 协议外部表导出数据 ................................................................... - 258 - 使用基于命令的 WEB 型外部表导出数据 ............................................................. - 259 - 使用 COPY 命令导入导出 ...  为每个登录的 User 分配不同的 Role。出于登录和审计的需要,每个被允许登录 到 GP 的使用者都应该分配一个属于自己的 Role。对于应用程序(APP)或者 Web 应用 来说,应该考虑为每个 APP 或者 Web Server 创建独立的 Role。  使用 Group 来管理访问权限。当登录的用户数量较多,且经常需要为类似的用户 授予类似的权限时,可以通过 Group 小时格式的时间) TIME '02:00 PM' (12 小时格式的时间) TIME '02:00' (24 小时格式的时间) 其等价于 TIME '02:00 AM' 注意:时间约束是强制以服务器时间为准的。时区信息会被忽略。 指定时间段 要指定限制访问的时间段,需要两个[日期/时间]来确定,且通过 BETWEEN 和 AND 关键字连接。DAY 是必须的。 BETWEEN0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum 精粹文集16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多 多节点上,其提供性能几乎是线性的增长,这样一个集群提供的性能 能够很轻易的达到传统数据库的数百倍甚至数千倍,所管理数据存储 规模达到 100TB~ 数 PB,而你在硬件上的投入,仅仅是数台一般的 X86 服务器和普通的万兆交换机。 Big Date2.indd 6 16-11-22 下午3:38 Greenplum 精粹文集 7 Greenplum 采用 Postgresl0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多 多节点上,其提供性能几乎是线性的增长,这样一个集群提供的性能 能够很轻易的达到传统数据库的数百倍甚至数千倍,所管理数据存储 规模达到 100TB~ 数 PB,而你在硬件上的投入,仅仅是数台一般的 X86 服务器和普通的万兆交换机。 Big Date2.indd 6 16-11-22 下午3:38 Greenplum 精粹文集 7 Greenplum 采用 Postgresl0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum 新一代数据管理和数据分析解决方案网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率 数据库管理系统(DBMS)的 规模/容量 11 需要采用一种新的方法 •“一切皆可商用”:商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘 过去Google™ 曾经用来实现信息搜索功能的技术, 源文件 源数据 源数据 源文件 数据仓库和分析应 用程序 Greenplum数据架构 商用硬件集群 分析 数据 市场 企业数 据仓库 企业数据集合:主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 • 确保关键任务的可靠性 • 最出色的性能 • 高度灵活性 • 逐步扩展计算能力 • 动态措施 • 数据访问: • 在一个系统中协调所有企业数据的位置 网络互连 并行查询规划和调度 区段服务器 (处理和存储) SQL 查询和 MapReduce程序 MPP (海量并行处理) “完全不共享”体系 Greenplum体系:并行数据流 21 • 通用并行数据流引擎可以通过本地方 式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核0 码力 | 45 页 | 2.07 MB | 1 年前3 Greenplum 新一代数据管理和数据分析解决方案网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率 数据库管理系统(DBMS)的 规模/容量 11 需要采用一种新的方法 •“一切皆可商用”:商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘 过去Google™ 曾经用来实现信息搜索功能的技术, 源文件 源数据 源数据 源文件 数据仓库和分析应 用程序 Greenplum数据架构 商用硬件集群 分析 数据 市场 企业数 据仓库 企业数据集合:主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 • 确保关键任务的可靠性 • 最出色的性能 • 高度灵活性 • 逐步扩展计算能力 • 动态措施 • 数据访问: • 在一个系统中协调所有企业数据的位置 网络互连 并行查询规划和调度 区段服务器 (处理和存储) SQL 查询和 MapReduce程序 MPP (海量并行处理) “完全不共享”体系 Greenplum体系:并行数据流 21 • 通用并行数据流引擎可以通过本地方 式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核0 码力 | 45 页 | 2.07 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商hostIP:udw访问id UserName :访问数据的⽤⼾名 DB:数据库名称 employee:表名 外部表并⾏加载数据 外部表并⾏加载数据 外部表并⾏加载数据是利⽤http协议实现的⼀个⽂件服务器,⽤于创建udw的外部⽂件表。使⽤外部表并⾏加载数据可以让udw的每个⼦节点并⾏的加载数据、⼤⼤的加快数据导⼊udw的 速度。在加载数据的时候我们可以先创建⼀个外部表,然后通过INSERT INTO hostIP:udw访问id UserName :访问数据的⽤⼾名 DB:数据库名称 employee:表名 5.3 外部表并⾏加载数据 外部表并⾏加载数据 外部表并⾏加载数据是利⽤ http 协议实现的⼀个⽂件服务器,⽤于创建 udw 的外部⽂件表。使⽤外部表并⾏加载数据可以让 udw 的每个⼦节点并⾏的加载数据、⼤⼤的加快数据导⼊ udw 的速度。在加载数据的时候我们可以先创建⼀个外部表,然后通过 INSERT Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 104/206 \e [⽂件名] ⽤⼀个外部编辑器编辑当前查询缓冲区或⽂件 \g[⽂件名]向服务器发送SQL命令 \p 显⽰当前查询缓冲区的内容 \r 重置 (清理) 查询缓冲区 \s [⽂件名] 打印历史或者将其保存到⽂件 \w [⽂件名] 将查询缓冲区写出到⽂件 4. 输⼊∕输出选项0 码力 | 206 页 | 5.35 MB | 1 年前3 Greenplum数据仓库UDW - UCloud中立云计算服务商hostIP:udw访问id UserName :访问数据的⽤⼾名 DB:数据库名称 employee:表名 外部表并⾏加载数据 外部表并⾏加载数据 外部表并⾏加载数据是利⽤http协议实现的⼀个⽂件服务器,⽤于创建udw的外部⽂件表。使⽤外部表并⾏加载数据可以让udw的每个⼦节点并⾏的加载数据、⼤⼤的加快数据导⼊udw的 速度。在加载数据的时候我们可以先创建⼀个外部表,然后通过INSERT INTO hostIP:udw访问id UserName :访问数据的⽤⼾名 DB:数据库名称 employee:表名 5.3 外部表并⾏加载数据 外部表并⾏加载数据 外部表并⾏加载数据是利⽤ http 协议实现的⼀个⽂件服务器,⽤于创建 udw 的外部⽂件表。使⽤外部表并⾏加载数据可以让 udw 的每个⼦节点并⾏的加载数据、⼤⼤的加快数据导⼊ udw 的速度。在加载数据的时候我们可以先创建⼀个外部表,然后通过 INSERT Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 104/206 \e [⽂件名] ⽤⼀个外部编辑器编辑当前查询缓冲区或⽂件 \g[⽂件名]向服务器发送SQL命令 \p 显⽰当前查询缓冲区的内容 \r 重置 (清理) 查询缓冲区 \s [⽂件名] 打印历史或者将其保存到⽂件 \w [⽂件名] 将查询缓冲区写出到⽂件 4. 输⼊∕输出选项0 码力 | 206 页 | 5.35 MB | 1 年前3
 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源社区强强联手,不仅是双方业务用户所期盼的,同时也是 Greenplum 白皮书 5 白皮书 | 5 欧拉开源操作系统 欧拉开源操作系统(openEuler, 简称“欧拉”)从服务器操作系统正式升级为面向数字基础设施的操作系统,支持服务 器、云计算、边缘计算、嵌入式等应用场景,支持多样性计算,致力于提供安全、稳定、易用的操作系统。通过为应用 提供确定性保障能力,支持 OT 领域应用及 多处理器架构,未来还会扩展 PowerPC、SW64 等更多芯片架构支持,持续 完善多样化算力生态体验。 openEuler 社区面向场景化的 SIG 不断组建,推动 openEuler 应用边界从最初的服务器场景,逐步拓展到云计算、边 缘计算、嵌入式等更多场景。openEuler 正成为覆盖全场景的操作系统,将发布面向边缘计算的版本 openEuler 21.09 Edge、面向嵌入式的版本 openEuler0 码力 | 17 页 | 2.04 MB | 1 年前3 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源社区强强联手,不仅是双方业务用户所期盼的,同时也是 Greenplum 白皮书 5 白皮书 | 5 欧拉开源操作系统 欧拉开源操作系统(openEuler, 简称“欧拉”)从服务器操作系统正式升级为面向数字基础设施的操作系统,支持服务 器、云计算、边缘计算、嵌入式等应用场景,支持多样性计算,致力于提供安全、稳定、易用的操作系统。通过为应用 提供确定性保障能力,支持 OT 领域应用及 多处理器架构,未来还会扩展 PowerPC、SW64 等更多芯片架构支持,持续 完善多样化算力生态体验。 openEuler 社区面向场景化的 SIG 不断组建,推动 openEuler 应用边界从最初的服务器场景,逐步拓展到云计算、边 缘计算、嵌入式等更多场景。openEuler 正成为覆盖全场景的操作系统,将发布面向边缘计算的版本 openEuler 21.09 Edge、面向嵌入式的版本 openEuler0 码力 | 17 页 | 2.04 MB | 1 年前3
 Pivotal Greenplum 5: 新一代数据平台能对大多数客户都很有帮助。Greenplum 解决方案的架构设计目的是管理 非常复杂的查询,以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分 析扩展功能支持 ANSI SQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够管理各种规模的数据卷,数 体产品方向产生影响,而这又会加快产品创新。 客户能够在群集中的一组初始服务器上部署 Pivotal Greenplum,并能在数据存储和用户需求增加时扩充配置中的服务器数 量,且无需卸载再重新加载数据。随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Pivotal Greenplum 目前可在 Amazon Web Services、Microsoft Azure 和 Google0 码力 | 9 页 | 690.33 KB | 1 年前3 Pivotal Greenplum 5: 新一代数据平台能对大多数客户都很有帮助。Greenplum 解决方案的架构设计目的是管理 非常复杂的查询,以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分 析扩展功能支持 ANSI SQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够管理各种规模的数据卷,数 体产品方向产生影响,而这又会加快产品创新。 客户能够在群集中的一组初始服务器上部署 Pivotal Greenplum,并能在数据存储和用户需求增加时扩充配置中的服务器数 量,且无需卸载再重新加载数据。随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Pivotal Greenplum 目前可在 Amazon Web Services、Microsoft Azure 和 Google0 码力 | 9 页 | 690.33 KB | 1 年前3
 并行不悖- OLAP 在互联网公司的实践与思考Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 —— dbsync平台 公司IDC_02机房Greenplum体系 Ø 公司IDC_03机房Greenplum体系 • 服务器资源 Ø 三大Greenplum集群,共用 422 个postgresql实例 Ø 实例分布成为 28 个Greenplum集群或postgresql单实例 • 服务器资源 Ø 三大Greenplum集群,共使用 51 台服务器资源 Ø 12台虚拟机,39台物理机 17 Greenplum现状说明 三大Greenplum集群定位分类 27 Greenplum运维体系 数据库备份 • 配置与结构备份 Ø 多机房级联备份 Ø Greenplum在本机进行第一次备份 Ø 备份通过rsync传输到同机房ETL服务器 Ø 各机房ETL服务器在备份到备份服务器 • 结果数据备份 Ø Greenplum集群与postgresql集市备份 Ø 结果数据csv文件备份 Ø 结果数据到备份postgresql实例 28 Greenplum运维体系0 码力 | 43 页 | 9.66 MB | 1 年前3 并行不悖- OLAP 在互联网公司的实践与思考Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 —— dbsync平台 公司IDC_02机房Greenplum体系 Ø 公司IDC_03机房Greenplum体系 • 服务器资源 Ø 三大Greenplum集群,共用 422 个postgresql实例 Ø 实例分布成为 28 个Greenplum集群或postgresql单实例 • 服务器资源 Ø 三大Greenplum集群,共使用 51 台服务器资源 Ø 12台虚拟机,39台物理机 17 Greenplum现状说明 三大Greenplum集群定位分类 27 Greenplum运维体系 数据库备份 • 配置与结构备份 Ø 多机房级联备份 Ø Greenplum在本机进行第一次备份 Ø 备份通过rsync传输到同机房ETL服务器 Ø 各机房ETL服务器在备份到备份服务器 • 结果数据备份 Ø Greenplum集群与postgresql集市备份 Ø 结果数据csv文件备份 Ø 结果数据到备份postgresql实例 28 Greenplum运维体系0 码力 | 43 页 | 9.66 MB | 1 年前3
 Greenplum介绍Greenplum架构: Master介绍 Master服务器是外面用户访问greenplum的入口。用户 都是连接master服务器的,对于外部用户来说,他并不 与segment host服务器发生任何关系,外部用户的网络 只需要与master服务器连通就可以了,不需要访问 segment host服务器。 所有的用户连接都是直接连接到master服务器上的。 Greenplum数据库是基于PostgreSQL数据库的,所以 被改造过的 PostgreSQL数据库,它包含了整个分布 式数据库中的 所有元数据,如表结构定义、索引等等。但其并不存储 实际的数据,实际的数据是存储在segment 数据库 的。 master服务器接受从用户发来的连接,并做用户验证, 接收用户发来的sql,生成分布式执行计划,再把分布 执行计划分发到segment上执行,接收segment返回的 数据,最后返回给用户。 Greenplum架构:0 码力 | 38 页 | 655.38 KB | 1 年前3 Greenplum介绍Greenplum架构: Master介绍 Master服务器是外面用户访问greenplum的入口。用户 都是连接master服务器的,对于外部用户来说,他并不 与segment host服务器发生任何关系,外部用户的网络 只需要与master服务器连通就可以了,不需要访问 segment host服务器。 所有的用户连接都是直接连接到master服务器上的。 Greenplum数据库是基于PostgreSQL数据库的,所以 被改造过的 PostgreSQL数据库,它包含了整个分布 式数据库中的 所有元数据,如表结构定义、索引等等。但其并不存储 实际的数据,实际的数据是存储在segment 数据库 的。 master服务器接受从用户发来的连接,并做用户验证, 接收用户发来的sql,生成分布式执行计划,再把分布 执行计划分发到segment上执行,接收segment返回的 数据,最后返回给用户。 Greenplum架构:0 码力 | 38 页 | 655.38 KB | 1 年前3
 Greenplum上云与优化支持(B-tree、Bitmap) 不支持 2016Postgres中国用户大会 推荐应用架构 应用服务器 ECS VPC ApsaraDB for GP 主节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 应用服务器 应用服务器 阿里云服务 阿里云CDP服务 应用服务器 Tableau 应用服务器 2016Postgres中国用户大会 ApsaraDB for GP的定位0 码力 | 26 页 | 1.13 MB | 1 年前3 Greenplum上云与优化支持(B-tree、Bitmap) 不支持 2016Postgres中国用户大会 推荐应用架构 应用服务器 ECS VPC ApsaraDB for GP 主节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 应用服务器 应用服务器 阿里云服务 阿里云CDP服务 应用服务器 Tableau 应用服务器 2016Postgres中国用户大会 ApsaraDB for GP的定位0 码力 | 26 页 | 1.13 MB | 1 年前3
 PostgreSQL和Greenplum 数据库故障排查chkconfig --level 0123456 iptables off 2)临时目录/tmp(安装日志) 3)服务器日志(PostgreSQL server error log) 2018年PostgreSQL中国技术大会 微信号:laohouzi999 服务器日志(PostgreSQL server error log) -bash-4.1$ locate pg_ctl /us 09:02 postmaster.opts -rw------- 1 postgres postgres 95 Dec 9 09:02 postmaster.pid 这里是监听哪台服务器,而不是监听哪个客户端,控制哪 个客户端 -bash-4.1$ cat postgresql.conf |grep listen_address #listen_addresses = 'localhost' METHOD指定如何处理客户端的认证。常用的有ident,md5,password, trust,reject。 ident ident是Linux下PostgreSQL默认的local认证方式,凡是能正确登录服务器的 OS用户(注:不是数据库用户)就能使用本用户映射的数据库用户不需密码 登录数据库。 很多初学者都会遇到psql -U username登录数据库却出现“username ident0 码力 | 84 页 | 12.61 MB | 1 年前3 PostgreSQL和Greenplum 数据库故障排查chkconfig --level 0123456 iptables off 2)临时目录/tmp(安装日志) 3)服务器日志(PostgreSQL server error log) 2018年PostgreSQL中国技术大会 微信号:laohouzi999 服务器日志(PostgreSQL server error log) -bash-4.1$ locate pg_ctl /us 09:02 postmaster.opts -rw------- 1 postgres postgres 95 Dec 9 09:02 postmaster.pid 这里是监听哪台服务器,而不是监听哪个客户端,控制哪 个客户端 -bash-4.1$ cat postgresql.conf |grep listen_address #listen_addresses = 'localhost' METHOD指定如何处理客户端的认证。常用的有ident,md5,password, trust,reject。 ident ident是Linux下PostgreSQL默认的local认证方式,凡是能正确登录服务器的 OS用户(注:不是数据库用户)就能使用本用户映射的数据库用户不需密码 登录数据库。 很多初学者都会遇到psql -U username登录数据库却出现“username ident0 码力 | 84 页 | 12.61 MB | 1 年前3
共 26 条
- 1
- 2
- 3













