 Greenplum Database 管理员指南 6.2.1丢失,即便是原厂专业技术支持,也不能保证恢复所有信息。 Master目前采取的是Active-Standby的高可用模式,当Master处于Active 状态时,备用 Master(简称为 Standby)是不能接受连接请求和 SQL 访问的。虽然只 有一个 Master,就目前已有用户的使用情况来看,即便是编者有幸参与建设的 192 台计算节点的集群,Master 的资源依然很空闲,并不会成为性能的瓶颈,同时,因为 是单 type='readable'|'writable' protocol='gpfdist'|'http' 在设置外部表权限时还需要指定外部表的权限类型,包括 [可读|可写]以及[gpfdist 协议|http 协议]等。 INHERIT | NOINHERIT 决定该 Role 是否继承其所属 Group 的权限。缺省属性为 INHERIT。INHERIT PG 的官网获得。 JDBC pgjdbc 可以从 GP 或者 PG 的官网获得。 Perl DBI pgperl http://gborg.postgresql.org/project/pgperl Python DBI pygresql http://www.pygresql.org 使用通用API来访问GP的说明: 1. 下载相应的语言和对应平台的API文件。例如下载JDK和JDBC。0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1丢失,即便是原厂专业技术支持,也不能保证恢复所有信息。 Master目前采取的是Active-Standby的高可用模式,当Master处于Active 状态时,备用 Master(简称为 Standby)是不能接受连接请求和 SQL 访问的。虽然只 有一个 Master,就目前已有用户的使用情况来看,即便是编者有幸参与建设的 192 台计算节点的集群,Master 的资源依然很空闲,并不会成为性能的瓶颈,同时,因为 是单 type='readable'|'writable' protocol='gpfdist'|'http' 在设置外部表权限时还需要指定外部表的权限类型,包括 [可读|可写]以及[gpfdist 协议|http 协议]等。 INHERIT | NOINHERIT 决定该 Role 是否继承其所属 Group 的权限。缺省属性为 INHERIT。INHERIT PG 的官网获得。 JDBC pgjdbc 可以从 GP 或者 PG 的官网获得。 Perl DBI pgperl http://gborg.postgresql.org/project/pgperl Python DBI pygresql http://www.pygresql.org 使用通用API来访问GP的说明: 1. 下载相应的语言和对应平台的API文件。例如下载JDK和JDBC。0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商Client:访问 UDW 的客⼾端 ⽀持通过 JDBC、ODBC、PHP、Python、命令⾏ Sql 等⽅式访问 UDW 2. Master Node:访问 UDW 数据仓库的⼊⼝ 接收客⼾端的连接请求 负责权限认证 处理 SQL 命令 调度分发执⾏计划 汇总 Segment 的执⾏结果并将结果返回给客⼾端 3. Compute Node: Compute Node 管理节点的计算和存储资源 ⾯的⽅式访问 1)下载greenplum客⼾端解压 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 23/206 wget http://udw.cn-bj.ufileos.com/greenplum-client.tar tar -zxvf greenplum-client.tar.gz 2)配置udw客⼾端 进⼊ greenplum-client 如果你选择的数据仓库类型是udpg、可以采⽤下⾯的⽅式访问 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 24/206 1)下载udw客⼾端 wget http://udw.cn-bj.ufileos.com/udw-client.tar tar xvf udw-client.tar 2)配置udw客⼾端 进⼊udw-client安装⽬录,编辑 udw_client_path0 码力 | 206 页 | 5.35 MB | 1 年前3 Greenplum数据仓库UDW - UCloud中立云计算服务商Client:访问 UDW 的客⼾端 ⽀持通过 JDBC、ODBC、PHP、Python、命令⾏ Sql 等⽅式访问 UDW 2. Master Node:访问 UDW 数据仓库的⼊⼝ 接收客⼾端的连接请求 负责权限认证 处理 SQL 命令 调度分发执⾏计划 汇总 Segment 的执⾏结果并将结果返回给客⼾端 3. Compute Node: Compute Node 管理节点的计算和存储资源 ⾯的⽅式访问 1)下载greenplum客⼾端解压 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 23/206 wget http://udw.cn-bj.ufileos.com/greenplum-client.tar tar -zxvf greenplum-client.tar.gz 2)配置udw客⼾端 进⼊ greenplum-client 如果你选择的数据仓库类型是udpg、可以采⽤下⾯的⽅式访问 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 24/206 1)下载udw客⼾端 wget http://udw.cn-bj.ufileos.com/udw-client.tar tar xvf udw-client.tar 2)配置udw客⼾端 进⼊udw-client安装⽬录,编辑 udw_client_path0 码力 | 206 页 | 5.35 MB | 1 年前3
 Pivotal Greenplum 最佳实践分享2 © 2014 Pivotal Software, Inc. All rights reserved. Thanks Online document: http://gptext.docs.pivotal.io/ Download GPText 2.0: https://network.pivotal.io/ 阿里云 Pivotal Greenplum 最佳实践分享 Segment 节点一般配置4~8个Instance,初始化完成后很 难修改,需要提前规划; • 每个Instance都是一套独立的进程,当客户端 发起一个请求时,每个Instance都将FORK子进 程并行工作; • 对于并发请求高、面向于复杂的灵活查询的系 统,建议每个Segment配置4个或以下Instance, 这样来保证每个Instance所需资源,保证系统 系统运行稳定性,例如,减少OOM发生的概率;0 码力 | 41 页 | 1.42 MB | 1 年前3 Pivotal Greenplum 最佳实践分享2 © 2014 Pivotal Software, Inc. All rights reserved. Thanks Online document: http://gptext.docs.pivotal.io/ Download GPText 2.0: https://network.pivotal.io/ 阿里云 Pivotal Greenplum 最佳实践分享 Segment 节点一般配置4~8个Instance,初始化完成后很 难修改,需要提前规划; • 每个Instance都是一套独立的进程,当客户端 发起一个请求时,每个Instance都将FORK子进 程并行工作; • 对于并发请求高、面向于复杂的灵活查询的系 统,建议每个Segment配置4个或以下Instance, 这样来保证每个Instance所需资源,保证系统 系统运行稳定性,例如,减少OOM发生的概率;0 码力 | 41 页 | 1.42 MB | 1 年前3
 Greenplum机器学习⼯具集和案例基于API日志的⾦金金融产品⽤用户分析 2017.thegiac.com 问题 ● 更更好地理理解不不同种 类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ● 对实时API请求进 ⾏行行分类和安全检测 ● 数据量量⼤大,现有数 据分析团队缺乏技 能 客户 数据科学解决⽅方案 ● 某⼤大型跨国⾦金金 融服务公司 ● 移动应⽤用 API 分析 ● 会话识别 API 请求 ⽇日志 抽取会话特征 根据原始特征 对用户聚类 验证聚 类结果 评分 对API请求结合超时和 K-means聚类处理理 主题模型 对主题进⾏行行K- means聚类 S 标记回话 ⼈人⼯工审查 新会话 建模过程 2017.thegiac.com 会话识别 API 请求 ⽇日志 对API请求结合超时和 K-means聚类处理理 thegiac.com 对API请求进⾏行行会话化 会话1 会话2 会话3 时间 会话1 会话2 会话3 基于时间的会话化 时间+聚类 2017.thegiac.com 会话识别 API 请求 ⽇日志 建模过程 对API请求结合超时和 K-means聚集处理理 2017.thegiac.com 会话识别 API 请求 ⽇日志 抽取会话特征0 码力 | 58 页 | 1.97 MB | 1 年前3 Greenplum机器学习⼯具集和案例基于API日志的⾦金金融产品⽤用户分析 2017.thegiac.com 问题 ● 更更好地理理解不不同种 类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ● 对实时API请求进 ⾏行行分类和安全检测 ● 数据量量⼤大,现有数 据分析团队缺乏技 能 客户 数据科学解决⽅方案 ● 某⼤大型跨国⾦金金 融服务公司 ● 移动应⽤用 API 分析 ● 会话识别 API 请求 ⽇日志 抽取会话特征 根据原始特征 对用户聚类 验证聚 类结果 评分 对API请求结合超时和 K-means聚类处理理 主题模型 对主题进⾏行行K- means聚类 S 标记回话 ⼈人⼯工审查 新会话 建模过程 2017.thegiac.com 会话识别 API 请求 ⽇日志 对API请求结合超时和 K-means聚类处理理 thegiac.com 对API请求进⾏行行会话化 会话1 会话2 会话3 时间 会话1 会话2 会话3 基于时间的会话化 时间+聚类 2017.thegiac.com 会话识别 API 请求 ⽇日志 建模过程 对API请求结合超时和 K-means聚集处理理 2017.thegiac.com 会话识别 API 请求 ⽇日志 抽取会话特征0 码力 | 58 页 | 1.97 MB | 1 年前3
 Greenplum 架构概览Postmaster 进程发起连接请求 PG fork 出⼀个 postgres 进程与该客户端建⽴连接,postmaster 进程不再处理与该客户端的相关请求 postgres 进程接收客户端的请求,处理并返回结果。当然,响应需要经过 libpq 库的处理 基本查询流程 Query Dispatcher 当 client 向 Master 发起查询请求时,Master 节点上的 postmaster postmaster 进程将会 fork 出⼀个⼦进程,叫做 Query Dispatcher(分发 器),简称为 QD 进程 QD 进程会对收到的查询请求进⾏处理,包括解析原始查询语句、优化器优化以及⽣成分布式查询计划,然后将查询计划通过 libpq 库发送 给其它的 Segment 节点 Query Executor Segment 节点上同样是 PG 进程,所以仍然由 postmaster0 码力 | 1 页 | 734.79 KB | 1 年前3 Greenplum 架构概览Postmaster 进程发起连接请求 PG fork 出⼀个 postgres 进程与该客户端建⽴连接,postmaster 进程不再处理与该客户端的相关请求 postgres 进程接收客户端的请求,处理并返回结果。当然,响应需要经过 libpq 库的处理 基本查询流程 Query Dispatcher 当 client 向 Master 发起查询请求时,Master 节点上的 postmaster postmaster 进程将会 fork 出⼀个⼦进程,叫做 Query Dispatcher(分发 器),简称为 QD 进程 QD 进程会对收到的查询请求进⾏处理,包括解析原始查询语句、优化器优化以及⽣成分布式查询计划,然后将查询计划通过 libpq 库发送 给其它的 Segment 节点 Query Executor Segment 节点上同样是 PG 进程,所以仍然由 postmaster0 码力 | 1 页 | 734.79 KB | 1 年前3
 Greenplum 精粹文集Share-nothing 架构实现超大 IO 吞吐能力 ) 另外,Greenplum 还是建立在实例级别上的并行计算,可在一次 SQL 请求中利用到每个节点上的多个 CPU CORE 的计算能力,对 X86 的 CPU 超线程有很好的支持,提供更好的请求响应速度。在 PoC 中接触 到其它一些国内外基于开放平台的 MPP 软件,大都是建立在节点级的 并行,单个或少量的任务时无法充分利用资源,导致系统加载和 数据库一样,在极短的时间处 理大量的并发小任务,这个并非 MPP 数据库所长。请牢记,并行和 并发是两个完全不同的概念,MPP 数据库是为了解决大问题而设计的 并行计算技术,而不是大量的小问题的高并发请求。 再通俗点说,Greenplum 主要定位在 OLAP 领域,利用 Greenplum MPP 数据库做大数据计算或分析平台非常适合,例如 : 数据仓库系统、 ODS 系统、ACRM 系统、历史数据管理系统、电信流量分析系统、移 数据库 SQL-On-Hadoop 不擅长于交互式(interactive)的 Ad-hoc 查询, 大多通过预关联的方式来规避这个问题;另外,在并发处理方面的能 力较弱。高并发场景下,需要控制计算请求的并发度,避免资源过载 导致的稳定性问题和性能下降问题。 3) 架构灵活性的对比 前面提到,为保证数据的高性能计算,MPP 数据库节点和数据之 间是紧耦合的,相反,Hadoop 的节点和数据是没有耦合关系的。0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集Share-nothing 架构实现超大 IO 吞吐能力 ) 另外,Greenplum 还是建立在实例级别上的并行计算,可在一次 SQL 请求中利用到每个节点上的多个 CPU CORE 的计算能力,对 X86 的 CPU 超线程有很好的支持,提供更好的请求响应速度。在 PoC 中接触 到其它一些国内外基于开放平台的 MPP 软件,大都是建立在节点级的 并行,单个或少量的任务时无法充分利用资源,导致系统加载和 数据库一样,在极短的时间处 理大量的并发小任务,这个并非 MPP 数据库所长。请牢记,并行和 并发是两个完全不同的概念,MPP 数据库是为了解决大问题而设计的 并行计算技术,而不是大量的小问题的高并发请求。 再通俗点说,Greenplum 主要定位在 OLAP 领域,利用 Greenplum MPP 数据库做大数据计算或分析平台非常适合,例如 : 数据仓库系统、 ODS 系统、ACRM 系统、历史数据管理系统、电信流量分析系统、移 数据库 SQL-On-Hadoop 不擅长于交互式(interactive)的 Ad-hoc 查询, 大多通过预关联的方式来规避这个问题;另外,在并发处理方面的能 力较弱。高并发场景下,需要控制计算请求的并发度,避免资源过载 导致的稳定性问题和性能下降问题。 3) 架构灵活性的对比 前面提到,为保证数据的高性能计算,MPP 数据库节点和数据之 间是紧耦合的,相反,Hadoop 的节点和数据是没有耦合关系的。0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum数据库架构分析及5.x新功能分享nal Use Only 解析器 主节点Segment 系统表 优化器 分布式事务 调度器 执行器 解析器执行词法分 析、语法分析并生 成 解析树 客户端 主节点接受客户连接, 处理请求,执行认证 解析器 主节点 17 Pivotal Confidential–Inter nal Use Only 优化器 本地存储 主节点Segment 系统表 分布式事务 Interconnect0 码力 | 44 页 | 8.35 MB | 1 年前3 Greenplum数据库架构分析及5.x新功能分享nal Use Only 解析器 主节点Segment 系统表 优化器 分布式事务 调度器 执行器 解析器执行词法分 析、语法分析并生 成 解析树 客户端 主节点接受客户连接, 处理请求,执行认证 解析器 主节点 17 Pivotal Confidential–Inter nal Use Only 优化器 本地存储 主节点Segment 系统表 分布式事务 Interconnect0 码力 | 44 页 | 8.35 MB | 1 年前3
 Greenplum 分布式数据库内核揭秘是整个数据库实例的总控进程,负责启动和关闭数据库实例。当客户端和 Coordinator 建立连接时,postmaster 会 fork 出一个子进程来为该连接提供服务。 Coordinator 节点上负责处理用户查询请求的进程称为 QD (Query Dispatcher) 进程。当 QD 进 程收到客户的 SQL 时,就会对其进行解析、重写和优化,并将分布式查询计划发送给 Segment 节点进行执行,并将最终结果返回给客户端。0 码力 | 31 页 | 3.95 MB | 1 年前3 Greenplum 分布式数据库内核揭秘是整个数据库实例的总控进程,负责启动和关闭数据库实例。当客户端和 Coordinator 建立连接时,postmaster 会 fork 出一个子进程来为该连接提供服务。 Coordinator 节点上负责处理用户查询请求的进程称为 QD (Query Dispatcher) 进程。当 QD 进 程收到客户的 SQL 时,就会对其进行解析、重写和优化,并将分布式查询计划发送给 Segment 节点进行执行,并将最终结果返回给客户端。0 码力 | 31 页 | 3.95 MB | 1 年前3
 Greenplum分布式事务和两阶段提交协议查询编译器/ 优化器 事务管理器 DDL编译器 执行引擎 日志和恢复 并发控制 索引/文件/ 记录管理器 缓冲区管理器 缓冲区 锁表 存储管理器 存储 查询计划 对索引、文件和 记录的请求 页命令 事务命令 查询、更新 用户/ 应用 DDL命令 数据库管理员 数据、元数据、索引 日志页 读、写页 元数据、 统计数据 元数据 9 存储介质的类型 ■ Volatile0 码力 | 42 页 | 2.12 MB | 1 年前3 Greenplum分布式事务和两阶段提交协议查询编译器/ 优化器 事务管理器 DDL编译器 执行引擎 日志和恢复 并发控制 索引/文件/ 记录管理器 缓冲区管理器 缓冲区 锁表 存储管理器 存储 查询计划 对索引、文件和 记录的请求 页命令 事务命令 查询、更新 用户/ 应用 DDL命令 数据库管理员 数据、元数据、索引 日志页 读、写页 元数据、 统计数据 元数据 9 存储介质的类型 ■ Volatile0 码力 | 42 页 | 2.12 MB | 1 年前3
 VMware Greenplum v6.19 Documentationconfig_server option. You can use this option in the CREATE EXTERNAL TABLE LOCATION clause to specify the http/https server URL from which Greenplum Database obtains the s3 protocol configuration file. gpload pytz World timezone definitions, modern and historical PyYAML YAML parser and emitter requests HTTP library s3transfer Amazon S3 transfer manager scandir Directory iteration function scikit-learn and GPUs thinc Practical Machine Learning for NLP tqdm Fast, extensible progress meter urllib3 HTTP library with thread-safe connection pooling, file post, and more wasabi Lightweight console printing0 码力 | 1972 页 | 20.05 MB | 1 年前3 VMware Greenplum v6.19 Documentationconfig_server option. You can use this option in the CREATE EXTERNAL TABLE LOCATION clause to specify the http/https server URL from which Greenplum Database obtains the s3 protocol configuration file. gpload pytz World timezone definitions, modern and historical PyYAML YAML parser and emitter requests HTTP library s3transfer Amazon S3 transfer manager scandir Directory iteration function scikit-learn and GPUs thinc Practical Machine Learning for NLP tqdm Fast, extensible progress meter urllib3 HTTP library with thread-safe connection pooling, file post, and more wasabi Lightweight console printing0 码力 | 1972 页 | 20.05 MB | 1 年前3
共 23 条
- 1
- 2
- 3













