Greenplum Database 管理员指南 6.2.1................................................................................. - 143 - 在 GP 中使用聚集索引 ........................................................................................... - 144 准备好,尽可能将对目标表的影响降到最低,可参见"交换分区"章节。 聚集索引。聚集索引的意思是,表中的数据记录按照索引字段在磁盘上排序存储。 如果需要查询的数据在磁盘上的存储是无序的,数据库需要在磁盘文件上进行离散 扫描来获取,如果数据是有序的,数据库可以在连续的磁盘存储上获取数据,所以 对聚集索引字段的单条件查询的性能会更高效。 在 GP 中使用聚集索引 对于大表来说,使用CLUSTER( 对于大表来说,使用CLUSTER(该命令只可以作用于Heap表)命令来排序物理记录 以创建聚集索引可能需要耗费极长的时间。要快速达到同样的效果,可以通过创建一张 中间表的方式来手动排序数据,由于CLUSTER命令只能用于Heap表,对于AO表,要达 到聚集索引的效果,也只能通过数据排序插入的方式实现。例如: =# CREATE TABLE new_table (LIKE old_table) AS Greenplum Database0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 精粹文集交互。他们将宣布数据策略,确定将 使用什么样的加密算法来保存数据。此外,他们将定义谁可以访问并 解密数据的用户策略并明确一些规则,确定用户是否可以看到所有数 据,或仅能看到经过隐蔽处理的部分数据。然后,这些策略将被下推 到所有在 Pivotal Greenplum 服务器上运行的 PEP 代理处。 Big Date2.indd 52 16-11-22 下午3:38 Greenplum 精粹文集 53 管理员一起设置数据保护策略。管理员必须在 Protegrity 安全管理器中为将使用信用证标记的 SSN 元素创建一个策 略,允许 gpuser 解除数据的标记,并让所有其他用户能够查看数据的 隐藏版本。此后,需要将该策略配置下推到 PEP 代理,该代理作为在 数据库内执行的功能在 Greenplum 集群内的每个服务器上运行。所有 这些都将在 Greenplum 的外部进行管理以便很好地完成职责划分。 一旦完成此设置我们 数据,如果可以的话应显示哪种格式。在此情况下,gpuser 执行了此 查询并显示了原始插入的数值。SSN 数值对于任何其他用户来说都只 会看到 ###-##-6789 这样的显示内容,这依据于 ESA 上创建且下推 到本地 PEP 流程的策略。 当你每次输入查询码的时候,添加这些功能会有点麻烦,而且你可能 会希望限制用户对基础数据表的访问。如果创建一个视图自动应用功 能的话就方便得多。 CREATEVIEW0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 排序算法排序在Greenplum中的应用 43 ● Greenplum的聚集节点使用两种聚集方式:哈希聚集和分组聚集。 ● 分组聚集应用了排序的思想,如果数据基于分组键有序,那么聚集可以拆解为 若干个朴素聚集的组合。 ● SELECT avg(score) FROM student GROUP BY grade; 分组聚集 44 ● Greenplum连接算法包括:嵌套循环连接,哈希连接和归并连接。 接可以通过归并的方式,仅遍历一次数据,就完成连接操作。 ● SELECT * FROM student, class_enroll where student.id = class_enroll.sid; 归并连接 45 ● 聚集中的去重操作同样可以基于排序算法完成 ● Step 1: 延时执行转移函数,tuplesort_putdatum(peraggstate->sortstate, value, isnull); eraggstate->sortstate); ● Step 3: 去重,如果当前元组distinct键和上一个元组相同,或者同为NULL,则 跳过当前元组。否则执行转移函数。 Distinct聚集 46 ● Motion的Receiver需要接收多个Sender的数据,虽然每个Sender的数据保证 有序,但Receiver端也需要保证数据全局有序。 Sorted Motion 10 码力 | 52 页 | 2.05 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台Efficiently Processing Complex Correlated Queries 01 Dynamic Partition Elimination 03 动态分区裁剪 公共表达式的下推 高效处理相关子查询 超过8年的投资,多位博士的长期贡献 基于Cascades / Volcano框架, Goetz Graefe 优化分布式大数据系统中特别复杂的查询 18 Madlib:0 码力 | 52 页 | 4.48 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 集成分析:改进后的全新分析接口 一直以来,客户都能在 Pivotal Greenplum 中做高级分析,无论是提供将应用逻辑向下推送至数据所在位置的方法,执行 分析功能,还是以大规模并行方式构建数据模型,都可以实现。Greenplum 5 支持适用于数据挖掘和数据科学工作的最全面、 最先进的分析程序包和扩展。 Greenplum0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum机器学习⼯具集和案例thegiac.com 客户端 数据库服务器器 Master Segment 1 Segment 2 Segment n … SQL 存储过程 结果集 String 聚集 psql … 执⾏行行流程 2017.thegiac.com External Sources Load, streaming, etc. Network Interconnect 会话识别 API 请求 ⽇日志 建模过程 对API请求结合超时和 K-means聚集处理理 2017.thegiac.com 会话识别 API 请求 ⽇日志 抽取会话特征 根据原始特征 对用户聚类 建模过程 对API请求结合超时和 K-means聚集处理理 2017.thegiac.com K-means 聚类示例例 会话 特征 对用户聚类 建模过程 对API请求结合超时和 K-means聚集处理理 2017.thegiac.com 会话识别 API 请求 ⽇日志 抽取会话特 征 根据原始特征 对用户聚类 主题模型 对主题进行K- Means聚类 建模过程 对API请求结合超时和 K-means聚集处理理 2017.thegiac.com • ⼀一篇⽂文0 码力 | 58 页 | 1.97 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum受限,无法连接回 Greenplum 数据库或 打开任何其他外部连接。 集成分析:改进后的全新分析接口 一直以来,客户都能在 Greenplum 中做高级分析,无论是提供将应用逻辑向下推送至数据所在位置的方法,执行分 析功能,还是以大规模并行方式构建数据模型,都可以实现。Greenplum 支持适用于数据挖掘和数据科学工作的最 全面、最先进的分析程序包和扩展。Greenplum0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商信息选项 \d [名字] 描述表, 索引, 序列, 或者视图 \d{t|i|s|v|S} [模式] (加 "+" 获取更多信息) 列出表/索引/序列/视图/系统表 \da [模式] 列出聚集函数 \db [模式] 列出表空间 (加 "+" 获取更多的信息) \dc [模式] 列出编码转换 \dC 列出类型转换 \dd [模式] 显⽰⽬标的注释 \df [模式] 列出函数 © 2012-2021 UCloud 优刻得 106/206 语法: ABORT [ WORK | TRANSACTION ] 命令: ALTER AGGREGATE 描述: 改变⼀个聚集函数的定义 语法: ALTER AGGREGATE 名字 ( 类型 ) RENAME TO 新名字 命令: ALTER DATABASE 描述: 改变⼀个数据库 语法: ALTER DATABASE 'quote'] [FORCE QUOTE column [, ...]] ] [IGNORE EXTERNAL PARTITIONS ] 命令: CREATE AGGREGATE 描述: 定义⼀个新的聚集函数 语法: CREATE [ORDERED] AGGREGATE name (input_data_type [ , ... ]) ( SFUNC = sfunc, STYPE = state_data_type0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum开源MPP数据库介绍OLTP系统的SQL语句相对简单(CURD) Ø OLAP系统的SQL语句就复杂得多(OLTP则尽量避免) q Join 很复杂(多表, outer join, lateral…) q 子查询、子链接 q 聚集 (grouping sets, 多阶段聚集…) q 窗口函数, (Recursive) CTE q Procedure Languages(Python,R,Perl……) Ø 优化器非常非常重要 Ø 基于规则优化和基于代价优化0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum 分布式数据库内核揭秘brand -> Redistribute Motion 3:3 (slice1; segments: 3) Hash Key: brand -> Seq Scan on sales 一阶段聚集 l 我们需要对所有数据进行重分布,网络开销昂贵 l 若分组数量远小于集群节点数量,则会造成严重的计算倾斜 Confidential │ ©2021 VMware, Inc. 23 Multi-Stage Motion 3:3 Hash Key: sales.brand -> HashAggregate Group Key: sales.brand -> Seq Scan on sales 二阶段聚集 l 此时,只需要对在各个节点聚合后的数据进行重分布 l 但需要额外实现 combine() 方法 24 Confidential │ ©2021 VMware, Inc. Greenplum0 码力 | 31 页 | 3.95 MB | 1 年前3
共 13 条
- 1
- 2













