插件类 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum Database 管理员指南 6.2.1

配置基于内存限制的查询终止  分配资源组给ROLE  监控资源组状态  转移查询的资源组资源组基于角色或基于外部组件 GP 有两类资源组，分别是为 ROLE 管理资源的资源组和为外部组件(如 PL/Container)管理资源的资源组。资源组最普遍的用途是用于限制 GP 数据库中活 Greenplum Database 管理员指南小部分来查找结果。如果使用了分区表，扫描的数据可能会更少。通常，商业智能(BI) 的查询需要返回大量的数据，这种情况下使用索引未必有效。 GP建议在没有添加索引的情况下先测试一下查询的性能。索引更易于改善OLTP类型查询的性能，一般，索引查询期望返回很少量的数据。在返回少量结果的场景下，索引同样可以改善压缩AO表上查询的性能，当情况合适时优化器会把索引作为获取数据的选择，而不是一味的全表扫描。对于压缩数据来说，索引访问数据时只解压需要的记图的管理难度，因为在GP中视图是有强依赖关系的，当需要删除并重建(CREATE OR REPLACE命令不可以修改视图的字段定义)某个视图时，所有依赖该视图的上层视图，都需要被删除。有两类使用视图的方式是应该避免的，刚刚讲的多层视图还有其他弊端：  定义了很多层的视图，最后的查询语句看起来很简单 -- 这样的设计看起来一点都不酷，因为当遇到问题需要排查时，执行计划可能会变得很复杂，导致无从下手。

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum上云与优化

T_OSS Select count(*) from T_GP Group by city OSS作为“数据湖”，GP作为分析引擎 2016Postgres中国用户大会支持外部扩展已插件形式管理支持插件创建的语法 CREATE EXTENSION DROP EXTENSION Patch已提交社区 2016Postgres中国用户大会 HyperLogLog支持 create extension userids hll); select #userids from access_date where acc_date=current_date; 2016Postgres中国用户大会目前支持的插件 MADLib PL/Java Pgcrypto Fuzzstringmatch PostGIS Orca hll 2016Postgres中国用户大会完善的JSON数据类型支持 rds_superuser; Alter role my_user nords_superuser; 为该用户放开部分superuser的权限查看其它用户数据查看所有连接信息杀连接创建和删除插件 2016Postgres中国用户大会解决OOM问题实例的OOM有时很频繁，同时OOM很难提前监控我们的办法利用外部脚本监控cgroup中的内存统计发生内存水位较高时，将实例移入公共

0 码力 | 26 页 | 1.13 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

接⼊接⼊ Zeppelin Zeppelin 简介简介 Zeppelin 是⼀个开源的 Apache 的孵化项⽬. 它是⼀款基本 web 的 notebook ⼯具，⽀持交互式数据分析。通过插件的⽅式接⼊各种解释器（interpreter），使得⽤⼾能够以特定的语⾔或数据处理后端来完成交互式查询，并快速实现数据可视化。部署部署 Zeppelin 1) 安装 Java Zeppelin 下载安装https://www.elastic.co/downloads/logstash 2. logstash依赖java环境、确保已经安装过java 3. 安装logstash-output-kafka插件 4. 配置logstash收集⽇志写⼊Kafka 参考配置如下（更多参数和含义请参考官⽅⽂档）： UDW 使⽤案例 Greenplum数据仓库 UDW Copyright © 2012-2021

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

问题 ● 更更好地理理解不不同种类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ● 对实时API请求进⾏行行分类和安全检测 ● 数据量量⼤大，现有数据分析团队缺乏技能客户数据科学解决⽅方案 ● 某⼤大型跨国⾦金金融服务公司 ● 移动应⽤用 API 分析 ● 使⽤用Madlib进⾏行行聚类分析，建⽴立会话识别模型和主题模型抽取会话特征根据原始特征对用户聚类验证聚类结果评分对API请求结合超时和 K-means聚类处理理主题模型对主题进⾏行行K- means聚类 S 标记回话⼈人⼯工审查新会话建模过程 2017.thegiac.com 会话识别 API 请求⽇日志对API请求结合超时和 K-means聚类处理理建模过程 2017 会话1 会话2 会话3 基于时间的会话化时间+聚类 2017.thegiac.com 会话识别 API 请求⽇日志建模过程对API请求结合超时和 K-means聚集处理理 2017.thegiac.com 会话识别 API 请求⽇日志抽取会话特征根据原始特征对用户聚类建模过程对API请求结合超时和 K-means聚集处理理

0 码力 | 58 页 | 1.97 MB | 1 年前
3
深度揭秘Greenplum开源数据库透明加密

对运维安全无能为力基于pgcypto的加密 • 可以满足数据安全要求 • 非原生方案 • 问题很多基于pgcypto的数据加密方案 pgcypto Postgresql社区提供的一款简单加密插件 • https://www.postgresql.org/docs/13/pgcrypto.html • https://github.com/greenplum-db/gpdb/tree/m

0 码力 | 48 页 | 10.19 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

物理模型对于系统性能有很大影响，因此需要我们特别关注。以下来自于在某大型银行的使用经验：行存储和列存储： • 避免过多使用列存储的原因是防止小档数过多。 • 列存储能够提升查询性能，对于更新和全字段类操作性能反而会下降 • 对于少数频繁查询的宽表，例如交易表、帐户表、客户表等采用列存储，其它表采用行存储数据压缩： • 在金融业，行压缩的数据压缩比在1:6左右，一般采用zlib5级压缩使用B-Tree索引，对于区别度低的字段（<10000),采用 Bitmap索引； • 表关联时，一般不需要建索引，如果where条件的筛选性很强，建立索引可以让系统性能提升 • 对于大数据类系统，应避免使用PK,UI,FK,唯一性约束或参考性检查将导致性能大幅下降； • 大数量更新时，应先删除索引，更新/加载数据后再重建索引，或者采用分区交换降低对目标表的影响临时空间的监控和管理

0 码力 | 41 页 | 1.42 MB | 1 年前
3
Greenplum 精粹文集

易扩展等方面的卓越表现是分不开的。 1. 高吞吐该客户大数据平台的 ODS 区，接入了源端近百个业务系统的生产数据，每天需要加载进来的数据大概 5TB 左右。标准化处理完成后，需要给后端的公共访问、类别繁多的沙箱类应用供数。每月月初，业务繁忙时段，保守估计平均每天需要给下游系统提供 10TB 的压缩数据。如此大规模数据处理，加上严格的数据时效性要求，不选择 Greenplum 这种吞吐性能特别优秀的产品，很难满足业务部门致坏盘在读写性能非常差的情况下仍然对外提供服务，最终将整个集群拖慢。 ·如果客户的实际应用还存在大量较高并发的小 IO 操作，比如随机查询，可以考虑 SSD+SAS+ 表空间的方式，并将随机 IO 类应用对应的表放在 SSD 设备上，从而有效的隔离底层 IO，达到更好 SLA。某电信用户存在大量对 400 个字段以上大宽表的随机查询场景，之前由于 IO 资源争用，在批量作业调起时随机查询响应时间显著增加，

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum 架构概览

MySQL 的主从模型、Redis 的主从模型在 Master-Segment 模型下，⾸先 Master 节点不存储数据，其次就是数据将会以分⽚的⽅式存储在多个 Segment 节点中。这⾥可以类⽐ Redis Cluster，只不过 Redis Cluster 是去中⼼化的。在 Master-Segment 模型中通常也会包含 Master-Slave 模型，也就是增加数据副本，以实现⾼可⽤

0 码力 | 1 页 | 734.79 KB | 1 年前
3
Greenplum 6新特性: 在线扩容工具GPexpand剖析

localoid 表的OID policytype 分布类型 ‘p’ 分区 ‘r’ 复制表 numsegments 表分布在多少个节点上 diskkey 分布列的序号 distclass 分布列的操作类 GPExpand简介与具体用法 • GPExpand是Greenplum的扩容工具，可以为集群增加新的节点来支持更大容量的存储和更高的计算能力。 • 随着Greenplum一起安装发布，在$GPHOME/bin下面，和其

0 码力 | 37 页 | 1.12 MB | 1 年前
3
Greenplum备份恢复浅析

table 2017 年象行中国（杭州站）第一期 gpcrondump⽤法(3/3) gpcrondump命令使用--list-backup-files可以将备份产生的所有文件都列举出来，分为两类，分别是： 1. Pipes files 包括每个segment的数据文件（可以流式输出）、master产生的post_data文件包含indexes, triggers, primary key

0 码力 | 17 页 | 1.29 MB | 1 年前
3

共 14 条前往

页

分类

语言

格式

Greenplum Database 管理员指南 6.2.1

Greenplum上云与优化

Greenplum数据仓库UDW - UCloud中立云计算服务商

Greenplum机器学习⼯具集和案例

深度揭秘Greenplum开源数据库透明加密

Pivotal Greenplum 最佳实践分享

Greenplum 精粹文集

Greenplum 架构概览

Greenplum 6新特性: 在线扩容工具GPexpand剖析

Greenplum备份恢复浅析