聚集下推 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum Database 管理员指南 6.2.1

................................................................................. - 143 - 在 GP 中使用聚集索引 ........................................................................................... - 144 准备好，尽可能将对目标表的影响降到最低，可参见"交换分区"章节。  聚集索引。聚集索引的意思是，表中的数据记录按照索引字段在磁盘上排序存储。如果需要查询的数据在磁盘上的存储是无序的，数据库需要在磁盘文件上进行离散扫描来获取，如果数据是有序的，数据库可以在连续的磁盘存储上获取数据，所以对聚集索引字段的单条件查询的性能会更高效。在 GP 中使用聚集索引对于大表来说，使用CLUSTER( 对于大表来说，使用CLUSTER(该命令只可以作用于Heap表)命令来排序物理记录以创建聚集索引可能需要耗费极长的时间。要快速达到同样的效果，可以通过创建一张中间表的方式来手动排序数据，由于CLUSTER命令只能用于Heap表，对于AO表，要达到聚集索引的效果，也只能通过数据排序插入的方式实现。例如： =# CREATE TABLE new_table (LIKE old_table) AS Greenplum Database

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

交互。他们将宣布数据策略，确定将使用什么样的加密算法来保存数据。此外，他们将定义谁可以访问并解密数据的用户策略并明确一些规则，确定用户是否可以看到所有数据，或仅能看到经过隐蔽处理的部分数据。然后，这些策略将被下推到所有在 Pivotal Greenplum 服务器上运行的 PEP 代理处。 Big Date2.indd 52 16-11-22 下午3:38 Greenplum 精粹文集 53 管理员一起设置数据保护策略。管理员必须在 Protegrity 安全管理器中为将使用信用证标记的 SSN 元素创建一个策略，允许 gpuser 解除数据的标记，并让所有其他用户能够查看数据的隐藏版本。此后，需要将该策略配置下推到 PEP 代理，该代理作为在数据库内执行的功能在 Greenplum 集群内的每个服务器上运行。所有这些都将在 Greenplum 的外部进行管理以便很好地完成职责划分。一旦完成此设置我们数据，如果可以的话应显示哪种格式。在此情况下，gpuser 执行了此查询并显示了原始插入的数值。SSN 数值对于任何其他用户来说都只会看到 ###-##-6789 这样的显示内容，这依据于 ESA 上创建且下推到本地 PEP 流程的策略。当你每次输入查询码的时候，添加这些功能会有点麻烦，而且你可能会希望限制用户对基础数据表的访问。如果创建一个视图自动应用功能的话就方便得多。 CREATEVIEW

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum 排序算法

排序在Greenplum中的应用 43 ● Greenplum的聚集节点使用两种聚集方式：哈希聚集和分组聚集。 ● 分组聚集应用了排序的思想，如果数据基于分组键有序，那么聚集可以拆解为若干个朴素聚集的组合。 ● SELECT avg(score) FROM student GROUP BY grade; 分组聚集 44 ● Greenplum连接算法包括：嵌套循环连接，哈希连接和归并连接。接可以通过归并的方式，仅遍历一次数据，就完成连接操作。 ● SELECT * FROM student, class_enroll where student.id = class_enroll.sid; 归并连接 45 ● 聚集中的去重操作同样可以基于排序算法完成 ● Step 1：延时执行转移函数，tuplesort_putdatum(peraggstate->sortstate, value, isnull); eraggstate->sortstate); ● Step 3：去重，如果当前元组distinct键和上一个元组相同，或者同为NULL，则跳过当前元组。否则执行转移函数。 Distinct聚集 46 ● Motion的Receiver需要接收多个Sender的数据，虽然每个Sender的数据保证有序，但Receiver端也需要保证数据全局有序。 Sorted Motion 1

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

Efficiently Processing Complex Correlated Queries 01 Dynamic Partition Elimination 03 动态分区裁剪公共表达式的下推高效处理相关子查询超过8年的投资，多位博士的长期贡献基于Cascades / Volcano框架, Goetz Graefe 优化分布式大数据系统中特别复杂的查询 18 Madlib:

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

保留所有权利。 PIVOTAL GREENPLUM 5：新一代数据平台集成分析：改进后的全新分析接口一直以来，客户都能在 Pivotal Greenplum 中做高级分析，无论是提供将应用逻辑向下推送至数据所在位置的方法，执行分析功能，还是以大规模并行方式构建数据模型，都可以实现。Greenplum 5 支持适用于数据挖掘和数据科学工作的最全面、最先进的分析程序包和扩展。 Greenplum

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum机器学习⼯具集和案例

thegiac.com 客户端数据库服务器器 Master Segment 1 Segment 2 Segment n … SQL 存储过程结果集 String 聚集 psql … 执⾏行行流程 2017.thegiac.com External Sources Load, streaming, etc. Network Interconnect 会话识别 API 请求⽇日志建模过程对API请求结合超时和 K-means聚集处理理 2017.thegiac.com 会话识别 API 请求⽇日志抽取会话特征根据原始特征对用户聚类建模过程对API请求结合超时和 K-means聚集处理理 2017.thegiac.com K-means 聚类示例例会话特征对用户聚类建模过程对API请求结合超时和 K-means聚集处理理 2017.thegiac.com 会话识别 API 请求⽇日志抽取会话特征根据原始特征对用户聚类主题模型对主题进行K- Means聚类建模过程对API请求结合超时和 K-means聚集处理理 2017.thegiac.com • ⼀一篇⽂文

0 码力 | 58 页 | 1.97 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

受限，无法连接回 Greenplum 数据库或打开任何其他外部连接。集成分析：改进后的全新分析接口一直以来，客户都能在 Greenplum 中做高级分析，无论是提供将应用逻辑向下推送至数据所在位置的方法，执行分析功能，还是以大规模并行方式构建数据模型，都可以实现。Greenplum 支持适用于数据挖掘和数据科学工作的最全面、最先进的分析程序包和扩展。Greenplum

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

信息选项 \d [名字] 描述表, 索引, 序列, 或者视图 \d{t|i|s|v|S} [模式] (加 "+" 获取更多信息) 列出表/索引/序列/视图/系统表 \da [模式] 列出聚集函数 \db [模式] 列出表空间 (加 "+" 获取更多的信息) \dc [模式] 列出编码转换 \dC 列出类型转换 \dd [模式] 显⽰⽬标的注释 \df [模式] 列出函数 © 2012-2021 UCloud 优刻得 106/206 语法: ABORT [ WORK | TRANSACTION ] 命令: ALTER AGGREGATE 描述: 改变⼀个聚集函数的定义语法： ALTER AGGREGATE 名字 ( 类型 ) RENAME TO 新名字命令: ALTER DATABASE 描述: 改变⼀个数据库语法: ALTER DATABASE 'quote'] [FORCE QUOTE column [, ...]] ] [IGNORE EXTERNAL PARTITIONS ] 命令: CREATE AGGREGATE 描述: 定义⼀个新的聚集函数语法: CREATE [ORDERED] AGGREGATE name (input_data_type [ , ... ]) ( SFUNC = sfunc, STYPE = state_data_type

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum开源MPP数据库介绍

OLTP系统的SQL语句相对简单（CURD） Ø OLAP系统的SQL语句就复杂得多（OLTP则尽量避免） q Join 很复杂(多表, outer join, lateral…) q 子查询、子链接 q 聚集 (grouping sets, 多阶段聚集…) q 窗口函数, (Recursive) CTE q Procedure Languages（Python，R，Perl……） Ø 优化器非常非常重要 Ø 基于规则优化和基于代价优化

0 码力 | 23 页 | 4.55 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

brand -> Redistribute Motion 3:3 (slice1; segments: 3) Hash Key: brand -> Seq Scan on sales 一阶段聚集 l 我们需要对所有数据进行重分布，网络开销昂贵 l 若分组数量远小于集群节点数量，则会造成严重的计算倾斜 Confidential │ ©2021 VMware, Inc. 23 Multi-Stage Motion 3:3 Hash Key: sales.brand -> HashAggregate Group Key: sales.brand -> Seq Scan on sales 二阶段聚集 l 此时，只需要对在各个节点聚合后的数据进行重分布 l 但需要额外实现 combine() 方法 24 Confidential │ ©2021 VMware, Inc. Greenplum

0 码力 | 31 页 | 3.95 MB | 1 年前
3

共 13 条前往

页

分类

语言

格式

Greenplum Database 管理员指南 6.2.1

Greenplum 精粹文集

Greenplum 排序算法

Greenplum 6: 混合负载的理想数据平台

Pivotal Greenplum 5：新一代数据平台

Greenplum机器学习⼯具集和案例

完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

Greenplum数据仓库UDW - UCloud中立云计算服务商

Greenplum开源MPP数据库介绍

Greenplum 分布式数据库内核揭秘