Greenplum Database 管理员指南 6.2.1编写:陈淼 - 30 - 具有权限查看 pg_authid 系统表的用户都可以看到加密后的密码,不过这些密码都是 经过 MD5 加密后的字符串,由于 MD5 加密算法的不可逆性,查看者无法看到真实的原 始明文密码。当进行 DDL 的备份和恢复时,操作的是加密后的字符串,无法获取真实 的明文密码串。在设置密码的时候,密码就被加密了: =# CREATE USER name WITH ENCRYPTED rolname='name'; rolpassword 密码除了使用 MD5 进行加密,还可以使用 SHA-256 算法进行加密,该算法生成一 个 64 字节的十六进制字符串,前缀为 sha256 字符。MD5 算法生成的加密密码前缀为 md5 字符。pg_authid 系统表中存储的加密密码,是通过对密码拼接用户名之后的字 符串执行相应的加密算法得到的,同时以加密时的加密算法名作为前缀。例如: =# 文件,不过,缺省情况下这些命令会自动完成这些必要 的修改操作。 pg_hba.conf 是一个平面文件,按照行来区分每条记录。空行会被忽略,任何在 (#)后的字符串都会被忽略。每行记录由一系列 Space 和 Tab 混合分割的属性组成。 如果需要在属性中出现空白字符,需要将该属性用引号引起来。记录不可跨行。每条远 程客户端的访问许可,都像这种格式: host database role CIDR-address0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 精粹文集Greenplum 的 Contributor 贡献者,随 着社区的发展将推动 GreenplumMPP 数据库走向新的高速发展旅程。 (分享一下开源的直接好处,最近我们某用户的一个特殊需求,加载 数据中有回车等特殊字符,我们下载了 GP 外部表 gpfdist 源代码,不 到一天就轻松搞定问题) Greenplum 也正在积极的拥抱云计算,Cloud Foundry 的 PaaS 云平 台正在技术考虑把 Greenplum 节点数量成为瓶颈,可以增加外部表加载的并发度或者增加 Primary Instance 数量。 如果不是主流硬件环境,对于瓶颈的分析,请参照上述标准评估。通常, 40 个左右的 Primary Instance 处理性能匹配一个 gpfdist 服务的处理 性能,上了万兆网卡,网络就永远不会成为加载时的瓶颈,磁盘一般 也不会成为加载时的瓶颈。有兴趣的可以去看看 COPY 的源码,那里 也许有可以优化的地方。 Big Date2 10GB,集群有 100 个 Primary Instance,该操作等于在集群中传播 1TB(10GB×100) 的数据!所以,对于那些尺寸较大的表或者中间结 果出现这样的操作,都是需要坚决杜绝的。 循环匹配 (Nested Loop) 该操作的代价是,从每个 Primary Instance 上来看,两个集合呈现笛 卡尔积方式的关联。这种情况一般还会伴随着广播一起出现,如果是 2 张 100 万数量级的表采用循环的方式关联,计算量为0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 排序算法多键排序是Greenplum特有的一种排序方式,它的优势主要是对具有相同前缀 的字符串进行高效排序。 ● 在现实世界里,拥有相同前缀的字符串是非常常见的,比如URL都以https://为 前缀,每个具体站点也拥有自己的前缀,比如Greenplum站点的每篇文章都以 https://cn.greenplum.org/为前缀。对这些字符串进行排序的时候,多键排序优 势明显。 多键排序 40 ● 多键排序算法:快速排序的扩展 多键排序算法:快速排序的扩展 ● 假设待排序数组为a,数组元素是长度为K的字符串, 多键排序 41 多键排序 42 ● Group Aggregation ● Merge Join ● Distinct Aggregation ● Sorted Motion 排序在Greenplum中的应用 43 ● Greenplum的聚集节点使用两种聚集方式:哈希聚集和分组聚集。 ●0 码力 | 52 页 | 2.05 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商基本⼀致,在选择数据类型的时候应该尽可能占⽤空间⼩,同时能够保证存储所有可能的数值并且最合理地表达数据。 使⽤字符型数据类型保存字符串,⽇期或者⽇期时间戳类型保存⽇期类型,数值类型来保存数值。 使⽤ VARCHAR 或者 TEXT 来保存⽂本类数据。不推荐使⽤ CHAR 类型保存⽂本类型。VARCHAR 或 TEXT 类型对于数据末尾的空⽩字符将原样保存和处理,但是 CHAR 类型不能满⾜ 这个需求。请参考 CREATE TABLE 13、⽤户⾃定义函数 、⽤户⾃定义函数 udw ⽀持⽤⼾⾃定义函数,关于⽤⼾⾃定义函数请参考:官⽅⽂档 udw优化指南 优化指南 1 数据类型 数据类型 通过选择最合适的数据类型可以节省磁盘空间,提⾼查询性能。字符类型的数据建议使⽤ TEXT 或者 VARCHAR 类型,不要使⽤ CHAR 类型。TEXT 或者 VARCHAR 类型能够减少存储空 间。选取合适的数字类型,如 INT 或者 SMALLINT 能满⾜业务需求时,使⽤ 的话,那么使⽤转换函数; 或者产⽣⼀个 JSON 标量 (scalar)值。 数字、布尔值和空值(null)之外的其他标量会被表⽰为⽂本格式, 并通过正确的引⽤和转义来保证它是⼀个合法的 JSON 字符串。如下所⽰: array_to_json(anyarray [, pretty_bool]) UDW中Json类型 Greenplum数据仓库 UDW Copyright © 2012-20210 码力 | 206 页 | 5.35 MB | 1 年前3
PostgreSQL和Greenplum 数据库故障排查TCP/IP连接 hostnossl不能使用SSL TCP/IP连接 数据库(database) 声明允许访问的数据库,多个数据库,库名 间以逗号分隔。 all表明该记录匹配所有数据库 用户名(user) USER指定哪个数据库用户(PostgreSQL正规 的叫法是角色,role)。 多个用户以逗号分隔。 允许的客户端(ADDRESS) 格式为ip-address/mask0 码力 | 84 页 | 12.61 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考资源不足 Ø 连接、语句执行失败 Ø 多任务冲突 • 库表使用易出现问题 Ø 表定义过大 Ø 表类型单一 Ø 表的散列键不恰当 Ø 分区表的分区键性能不佳 • 加载易出现问题 Ø 文件加载出现特殊字符 Ø 数据校验标准问题 35 Greenplum开发规范 业务库表设计规范 • GP中表的范围 Ø 最大时间为年表 Ø 数据量小,可用单表 • 多种表类型 Ø 堆表 (选好常用列作为三列键)0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台度方圆2KM的范围 GPText.search() 函数可 以知道是否一个人在 Pivotal工作 Greenplum MADlib BFS 算法可以 知道两个之间是否有直接联系 Greenplum模糊字符串匹 配函数Soundex() 可以 知道姓名是否发音是 ‘Pavan’或‘Peter’ Greenplum Time 函数计算24 小时内的取款时间 金额 > $200 23 20180 码力 | 52 页 | 4.48 MB | 1 年前3
共 7 条
- 1













