 Greenplum Database 管理员指南 6.2.1....................................................................................... - 228 - 高级聚合函数 ................................................................................................ Primary 与 Mirror 之间的对应关系也可以达到网络保障的效果,但依然强烈建议采用网卡绑 定的方式实现网络的高可用。建议采用支持 802.3ad 协议的交换机以实现多网口的链 路聚合,这样,在操作系统层面,多个物理网口将聚合并表现为一个 IP 地址,当任何 的网络或者交换机出现故障时,在操作系统级别将不会有任何的连接性异常的感知,只 是网络带宽出现下降,整个数据库集群的 Instance 状态将不会受到任何影响。如果 Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 100 -  本地操作与分布式操作 -- 在处理查询时,很多处理如关联、排序、聚合等算子, 如果能够在Instance本地完成,其效率将高于需要从其他Instance获取数据的 操作。当不同的Table使用相同的DK时,在DK上的关联或者排序操作将会以最高 效的方式把绝大部分工作0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1....................................................................................... - 228 - 高级聚合函数 ................................................................................................ Primary 与 Mirror 之间的对应关系也可以达到网络保障的效果,但依然强烈建议采用网卡绑 定的方式实现网络的高可用。建议采用支持 802.3ad 协议的交换机以实现多网口的链 路聚合,这样,在操作系统层面,多个物理网口将聚合并表现为一个 IP 地址,当任何 的网络或者交换机出现故障时,在操作系统级别将不会有任何的连接性异常的感知,只 是网络带宽出现下降,整个数据库集群的 Instance 状态将不会受到任何影响。如果 Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 100 -  本地操作与分布式操作 -- 在处理查询时,很多处理如关联、排序、聚合等算子, 如果能够在Instance本地完成,其效率将高于需要从其他Instance获取数据的 操作。当不同的Table使用相同的DK时,在DK上的关联或者排序操作将会以最高 效的方式把绝大部分工作0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum 分布式数据库内核揭秘l Append-Optimized, Column Oriented 表:即 AOCO 表,在 Append-Optimized 的基础之 上按列进行存储,可对其使用不同的压缩算法进行压缩,对聚合查询有着天然的优势。 l 外部表:外部表的数据存储在外部,Greenplum 仅管理其元数据,支持多种外部数据源,例如 S3、HDFS、文件、Gemfire,以及多种数据格式譬如 Text、CSV、Avro、Parquet Confidential │ ©2021 VMware, Inc. 20 Redistribute Motion 将数据根据某一个或多个字段对数据进行哈希重分布,目的在于完成诸如连 接(JOIN)、聚合(Agg) 等操作。 Redistribute Motion postgres=# explain (costs off) select * from t join s on t.t1 = s.s1; Key: sales.brand -> HashAggregate Group Key: sales.brand -> Seq Scan on sales 二阶段聚集 l 此时,只需要对在各个节点聚合后的数据进行重分布 l 但需要额外实现 combine() 方法 24 Confidential │ ©2021 VMware, Inc. Greenplum 分布式执行器 QD/QE/火山模型/Gang0 码力 | 31 页 | 3.95 MB | 1 年前3 Greenplum 分布式数据库内核揭秘l Append-Optimized, Column Oriented 表:即 AOCO 表,在 Append-Optimized 的基础之 上按列进行存储,可对其使用不同的压缩算法进行压缩,对聚合查询有着天然的优势。 l 外部表:外部表的数据存储在外部,Greenplum 仅管理其元数据,支持多种外部数据源,例如 S3、HDFS、文件、Gemfire,以及多种数据格式譬如 Text、CSV、Avro、Parquet Confidential │ ©2021 VMware, Inc. 20 Redistribute Motion 将数据根据某一个或多个字段对数据进行哈希重分布,目的在于完成诸如连 接(JOIN)、聚合(Agg) 等操作。 Redistribute Motion postgres=# explain (costs off) select * from t join s on t.t1 = s.s1; Key: sales.brand -> HashAggregate Group Key: sales.brand -> Seq Scan on sales 二阶段聚集 l 此时,只需要对在各个节点聚合后的数据进行重分布 l 但需要额外实现 combine() 方法 24 Confidential │ ©2021 VMware, Inc. Greenplum 分布式执行器 QD/QE/火山模型/Gang0 码力 | 31 页 | 3.95 MB | 1 年前3
 Greenplum 精粹文集Greenplum 功能设计的方方 面面: 外部表数据加载是并行的、 查询计划执行是并行的、索 引的建立和使用是并行的, 统计信息收集是并行的、表 关联(包括其中的重分布或 广播及关联计算)是并行的,排序和分组聚合都是并行的,备份恢复 也是并行的,甚而数据库启停和元数据检查等维护工具也按照并行方 式来设计。得益于这种无所不在的并行,Greenplum 在数据加载和数 据计算中表现出强悍的性能,某行业客户对此深有体会 可 以 在 Hash join 通 过 COST 选择小表做 Hash,在 NestloopJoin 中选择 index 提高 join 性 能等等。 MPP 数据库对于 Aggregation(聚合)提供 Multiple-agg、Group- agg、sort-agg 等多种技术来提供计算性能;Mapreuce 需要开发人 员自己实现。 另外,Mapreduce 在整个 MAP->Shuffle->Reduce 的 方 式将两台交换机连在一起,在服务器上将网卡通过 LACP(IEEE 802.3ad/802.1ax Link Aggregation Control Protocol)协议做绑定形 成链路聚合组 (LAG Link Aggregation Group),如下图所示: Big Date2.indd 24 16-11-22 下午3:38 Greenplum 精粹文集 25 这样做的好处是,所有链路0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集Greenplum 功能设计的方方 面面: 外部表数据加载是并行的、 查询计划执行是并行的、索 引的建立和使用是并行的, 统计信息收集是并行的、表 关联(包括其中的重分布或 广播及关联计算)是并行的,排序和分组聚合都是并行的,备份恢复 也是并行的,甚而数据库启停和元数据检查等维护工具也按照并行方 式来设计。得益于这种无所不在的并行,Greenplum 在数据加载和数 据计算中表现出强悍的性能,某行业客户对此深有体会 可 以 在 Hash join 通 过 COST 选择小表做 Hash,在 NestloopJoin 中选择 index 提高 join 性 能等等。 MPP 数据库对于 Aggregation(聚合)提供 Multiple-agg、Group- agg、sort-agg 等多种技术来提供计算性能;Mapreuce 需要开发人 员自己实现。 另外,Mapreduce 在整个 MAP->Shuffle->Reduce 的 方 式将两台交换机连在一起,在服务器上将网卡通过 LACP(IEEE 802.3ad/802.1ax Link Aggregation Control Protocol)协议做绑定形 成链路聚合组 (LAG Link Aggregation Group),如下图所示: Big Date2.indd 24 16-11-22 下午3:38 Greenplum 精粹文集 25 这样做的好处是,所有链路0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum 架构概览基本拓扑结构 如上图,我们可以认为 Greenplum(后简称 GP) 就是很多个 PostgreSQL 实例所组成的集群。GP 对外提供统⼀的数据接⼝,并帮助⽤户⾃动完成数据分⽚、并⾏ 查询与聚合等诸多分布式数据库功能 GP 是⼀种典型的 Master-Segment 架构,⼀个 GP 集群通常由⼀个 Master 节点、⼀个 Standby Master 节点以及多个 Segment 节点所组成0 码力 | 1 页 | 734.79 KB | 1 年前3 Greenplum 架构概览基本拓扑结构 如上图,我们可以认为 Greenplum(后简称 GP) 就是很多个 PostgreSQL 实例所组成的集群。GP 对外提供统⼀的数据接⼝,并帮助⽤户⾃动完成数据分⽚、并⾏ 查询与聚合等诸多分布式数据库功能 GP 是⼀种典型的 Master-Segment 架构,⼀个 GP 集群通常由⼀个 Master 节点、⼀个 Standby Master 节点以及多个 Segment 节点所组成0 码力 | 1 页 | 734.79 KB | 1 年前3
 Greenplum 6: 混合负载的理想数据平台sub_part 16 Pivotal Confidential–Internal Use Only 窗口函数 表‘SALES’ 表‘SALES’ ■ 计算移动平均值或各种时间 间隔的总和 ■ 分组内重置聚合和排序 SELECT last_name, salary, department, rank() OVER w FROM employees0 码力 | 52 页 | 4.48 MB | 1 年前3 Greenplum 6: 混合负载的理想数据平台sub_part 16 Pivotal Confidential–Internal Use Only 窗口函数 表‘SALES’ 表‘SALES’ ■ 计算移动平均值或各种时间 间隔的总和 ■ 分组内重置聚合和排序 SELECT last_name, salary, department, rank() OVER w FROM employees0 码力 | 52 页 | 4.48 MB | 1 年前3
共 5 条
- 1













