 Greenplum Database 管理员指南 6.2.1应该仅限于:复制表的存在,等于提前把广播做好了,减少了执行计划的复杂度,对于 一些非常小的表,涉及的业务场景追求极致的性能时才考虑,对于通常的分析型场景, 无需考虑复制表。对分布策略要理解透彻,不能过度迷信某一种分布策略,时常在社区 听到有人说,复制表的性能更好,这是一种片面的理解,只能说,在某些特定的情况下, 选择复制分布,会表现出更好的性能。在考虑使用复制表时,请谨记一个衡量标准,复 制表的作用仅仅是提前把广播(Broadcast)做好了,仅仅如此,而已。 果访问的是复制表,UDF在Instance上 允许对该表进行只读的查询,当然,修改数据的操作仍然是不被允许的。  对于与其他表关联时需要被广播的小表来说,使用复制分布策略可以避免广播操作, 从而提升查询的性能,实际上,数据相当于提前广播好了。 注意:隐藏的系统字段(ctid、cmin、cmax、xmin、xmax和gp_segment_id)在 复制表上是不可用的,如果试图查询 一些区别:  视图没有数据文件 -- 因为视图不存储数据。  pg_class系统表中的relkind属性是v,而数据表是r。  每个视图有一个ON SELECT事件名称为_RETURN的rewrite规则。 视图的rewrite规则存储在pg_rewrite系统表中,视图的定义存储在该系统表 的ev_action字段中。关于视图的更多详细信息,可以参考PostgreSQL的相关文档。0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1应该仅限于:复制表的存在,等于提前把广播做好了,减少了执行计划的复杂度,对于 一些非常小的表,涉及的业务场景追求极致的性能时才考虑,对于通常的分析型场景, 无需考虑复制表。对分布策略要理解透彻,不能过度迷信某一种分布策略,时常在社区 听到有人说,复制表的性能更好,这是一种片面的理解,只能说,在某些特定的情况下, 选择复制分布,会表现出更好的性能。在考虑使用复制表时,请谨记一个衡量标准,复 制表的作用仅仅是提前把广播(Broadcast)做好了,仅仅如此,而已。 果访问的是复制表,UDF在Instance上 允许对该表进行只读的查询,当然,修改数据的操作仍然是不被允许的。  对于与其他表关联时需要被广播的小表来说,使用复制分布策略可以避免广播操作, 从而提升查询的性能,实际上,数据相当于提前广播好了。 注意:隐藏的系统字段(ctid、cmin、cmax、xmin、xmax和gp_segment_id)在 复制表上是不可用的,如果试图查询 一些区别:  视图没有数据文件 -- 因为视图不存储数据。  pg_class系统表中的relkind属性是v,而数据表是r。  每个视图有一个ON SELECT事件名称为_RETURN的rewrite规则。 视图的rewrite规则存储在pg_rewrite系统表中,视图的定义存储在该系统表 的ev_action字段中。关于视图的更多详细信息,可以参考PostgreSQL的相关文档。0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum 精粹文集Style 贯 穿 了 Greenplum 功能设计的方方 面面: 外部表数据加载是并行的、 查询计划执行是并行的、索 引的建立和使用是并行的, 统计信息收集是并行的、表 关联(包括其中的重分布或 广播及关联计算)是并行的,排序和分组聚合都是并行的,备份恢复 也是并行的,甚而数据库启停和元数据检查等维护工具也按照并行方 式来设计。得益于这种无所不在的并行,Greenplum 在数据加载和数 据计算 没有统计信息,不能做基于 cost-base 的优化;MPP 数据库可以利用统计信息很好地进行并行计算优化。例如,MPP 对 于不同分布的数据可以在计算中基于 Cost 动态决定最优执行路径, 如采用重分布还是小表广播。 Big Date2.indd 13 16-11-22 下午3:38 14 ·Reduce 效率对比: 对比于 MPP 数据库的 SQL 执行器 -executor,Mapreduce 和相关统计信息规划出的一种执行 线路图。之后的执行将严格按照该线路图执行 ( 至少目前的产品特点 如此 ),执行计划的优劣直接决定了 SQL 性能。在 pgAdmin3 中看到 如下执行计划节点时,需要警惕: 广播 (Broadcast Motion) 该操作的代价是,全部数据需要在每个 Primary Instance 上有一份完整的拷贝。如果一张表或者中间结果的尺寸是 10GB,集群有 100 个 Primary0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集Style 贯 穿 了 Greenplum 功能设计的方方 面面: 外部表数据加载是并行的、 查询计划执行是并行的、索 引的建立和使用是并行的, 统计信息收集是并行的、表 关联(包括其中的重分布或 广播及关联计算)是并行的,排序和分组聚合都是并行的,备份恢复 也是并行的,甚而数据库启停和元数据检查等维护工具也按照并行方 式来设计。得益于这种无所不在的并行,Greenplum 在数据加载和数 据计算 没有统计信息,不能做基于 cost-base 的优化;MPP 数据库可以利用统计信息很好地进行并行计算优化。例如,MPP 对 于不同分布的数据可以在计算中基于 Cost 动态决定最优执行路径, 如采用重分布还是小表广播。 Big Date2.indd 13 16-11-22 下午3:38 14 ·Reduce 效率对比: 对比于 MPP 数据库的 SQL 执行器 -executor,Mapreduce 和相关统计信息规划出的一种执行 线路图。之后的执行将严格按照该线路图执行 ( 至少目前的产品特点 如此 ),执行计划的优劣直接决定了 SQL 性能。在 pgAdmin3 中看到 如下执行计划节点时,需要警惕: 广播 (Broadcast Motion) 该操作的代价是,全部数据需要在每个 Primary Instance 上有一份完整的拷贝。如果一张表或者中间结果的尺寸是 10GB,集群有 100 个 Primary0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum开源MPP数据库介绍Greenplum的一些概念 Ø MPP、分布式系统最重要的点是什么? Ø 一个整体的分布式系统,和中间件的区别在哪? Ø Motion q 跨节点的数据交换 q Gather汇集 (n:1), Broadcast广播 (n:n), Redistribute重分布 (n:n) Ø Slice q Motion把计划切片 q 每一片叫Slice,每一个Slice的实体是一组存在于各个节点上的进程 Ø Locus0 码力 | 23 页 | 4.55 MB | 1 年前3 Greenplum开源MPP数据库介绍Greenplum的一些概念 Ø MPP、分布式系统最重要的点是什么? Ø 一个整体的分布式系统,和中间件的区别在哪? Ø Motion q 跨节点的数据交换 q Gather汇集 (n:1), Broadcast广播 (n:n), Redistribute重分布 (n:n) Ø Slice q Motion把计划切片 q 每一片叫Slice,每一个Slice的实体是一组存在于各个节点上的进程 Ø Locus0 码力 | 23 页 | 4.55 MB | 1 年前3
 Greenplum 6: 混合负载的理想数据平台converged model = SELECT model.aggregation(…) FROM data table ENDWHILE 模型存储过程 … 广播 Segment 2 Segment n … Transition 函数 操作一小批数据并更新 模型状态 1 Merge 函数 2 Final函数 3 Segment 10 码力 | 52 页 | 4.48 MB | 1 年前3 Greenplum 6: 混合负载的理想数据平台converged model = SELECT model.aggregation(…) FROM data table ENDWHILE 模型存储过程 … 广播 Segment 2 Segment n … Transition 函数 操作一小批数据并更新 模型状态 1 Merge 函数 2 Final函数 3 Segment 10 码力 | 52 页 | 4.48 MB | 1 年前3
 Greenplum 编译安装和调试Motion 操作符节点处理,它分成2个部分,一部分负责发送数据,一部分负责接收 数据。发送数据者可以根据不同的策略将数据发送给接收方,现在支持的策略有1)重分布( redistribution);2)广播(broadcast)。 最后每个segment执行结束后,将结果发送给 Master。Master 对最终的数据整合(Gather Motion),返回给客户端。 4. 调试 Greenplum0 码力 | 15 页 | 2.07 MB | 1 年前3 Greenplum 编译安装和调试Motion 操作符节点处理,它分成2个部分,一部分负责发送数据,一部分负责接收 数据。发送数据者可以根据不同的策略将数据发送给接收方,现在支持的策略有1)重分布( redistribution);2)广播(broadcast)。 最后每个segment执行结束后,将结果发送给 Master。Master 对最终的数据整合(Gather Motion),返回给客户端。 4. 调试 Greenplum0 码力 | 15 页 | 2.07 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商[ WHERE predicate ] 命令: CREATE RULE 描述: 定义⼀个新的重写规则 语法: CREATE [ OR REPLACE ] RULE 名字 AS ON 事件 TO 表 [ WHERE 条件 ] DO [ ALSO | INSTEAD ] { NOTHING | 命令 | ( 命令 ; 命令 ... ) } 命令: CREATE SCHEMA0 码力 | 206 页 | 5.35 MB | 1 年前3 Greenplum数据仓库UDW - UCloud中立云计算服务商[ WHERE predicate ] 命令: CREATE RULE 描述: 定义⼀个新的重写规则 语法: CREATE [ OR REPLACE ] RULE 名字 AS ON 事件 TO 表 [ WHERE 条件 ] DO [ ALSO | INSTEAD ] { NOTHING | 命令 | ( 命令 ; 命令 ... ) } 命令: CREATE SCHEMA0 码力 | 206 页 | 5.35 MB | 1 年前3
共 6 条
- 1













