Greenplum Database 管理员指南 6.2.1编写:陈淼 - 30 - 具有权限查看 pg_authid 系统表的用户都可以看到加密后的密码,不过这些密码都是 经过 MD5 加密后的字符串,由于 MD5 加密算法的不可逆性,查看者无法看到真实的原 始明文密码。当进行 DDL 的备份和恢复时,操作的是加密后的字符串,无法获取真实 的明文密码串。在设置密码的时候,密码就被加密了: =# CREATE USER name WITH ENCRYPTED WHERE rolname='name'; rolpassword 密码除了使用 MD5 进行加密,还可以使用 SHA-256 算法进行加密,该算法生成一 个 64 字节的十六进制字符串,前缀为 sha256 字符。MD5 算法生成的加密密码前缀为 md5 字符。pg_authid 系统表中存储的加密密码,是通过对密码拼接用户名之后的字 符串执行相应的加密算法得到的,同时以加密时的加密算法名作为前缀。例如: Instance 的 pg_hba.conf 文件,不过,缺省情况下这些命令会自动完成这些必要 的修改操作。 pg_hba.conf 是一个平面文件,按照行来区分每条记录。空行会被忽略,任何在 (#)后的字符串都会被忽略。每行记录由一系列 Space 和 Tab 混合分割的属性组成。 如果需要在属性中出现空白字符,需要将该属性用引号引起来。记录不可跨行。每条远 程客户端的访问许可,都像这种格式: host0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 精粹文集知名电商的大数据平台);而有些则直接绕开了 Mapreduce 另起 炉灶,如 Impala、hawq 采用借鉴 MPP 计算思想来做查询优化和 内存数据 Pipeline 计算,以此来提高性能。 虽然 SQL-On-Hadoop 比原始的 Mapreduce 虽然在易用上有所提 高,但在 SQL 成熟度和关系分析上目前还与 MPP 数据库有较大差 距。 上述系统,除了 HAWQ 外,对 SQL 的支持都非常有限,特别是分析 型复杂 中能够直接将变量写进 SQL,同时,极度厌烦字符串拼接的方式 ( 双竖线 ) 去拼凑 SQL。 不但如此,你还希望在 pgAdmin3 中能够高亮显示你的所有 SQL,哇, 太酷了!! 那么,plperl/plperlu 函数语言是你不二的选择,赶快拥抱吧,抛弃 sql 和 plpgsql。建议你在 plperl 中使用 qq{} (double quote) 来表示多 行字符串,其中可以直接使用各种变量表达式。如果你愿意,你还可 INT PRIMARYKEY, ssn VARCHAR, rating INT, rating_date DATE ) DISTRIBUTED BY (id) 它不能保存磁盘上的原始数据,需要通过 Protegrity 提供的功能访问 进入 SSN 字段的数据以对数据进行标记化,并在提取数据的时候解除 标记。如果我们希望简单地将标记过的数据放入到数据库中,那么我 们将使用: Big0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 排序算法● 移除堆顶元素,完成排序 堆排序 1 2 3 5 6 8 9 5 9 2 1 3 6 8 20 ● 堆排序算法 堆排序 21 ● 归并排序分为两个阶段,阶段一是分割阶段,将原始待排序数据分成若干个顺 串。阶段二是合并阶段,将所有小顺串合并成一个包含所有数据的大顺串 外排序之归并排序 1 7 4 8 1 7 4 8 1 4 7 8 待排序数据 分割阶段 合并阶段 多键排序是Greenplum特有的一种排序方式,它的优势主要是对具有相同前缀 的字符串进行高效排序。 ● 在现实世界里,拥有相同前缀的字符串是非常常见的,比如URL都以https://为 前缀,每个具体站点也拥有自己的前缀,比如Greenplum站点的每篇文章都以 https://cn.greenplum.org/为前缀。对这些字符串进行排序的时候,多键排序优 势明显。 多键排序 40 ● 多键排序算法:快速排序的扩展 多键排序算法:快速排序的扩展 ● 假设待排序数组为a,数组元素是长度为K的字符串, 多键排序 41 多键排序 42 ● Group Aggregation ● Merge Join ● Distinct Aggregation ● Sorted Motion 排序在Greenplum中的应用 43 ● Greenplum的聚集节点使用两种聚集方式:哈希聚集和分组聚集。 ●0 码力 | 52 页 | 2.05 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台度方圆2KM的范围 GPText.search() 函数可 以知道是否一个人在 Pivotal工作 Greenplum MADlib BFS 算法可以 知道两个之间是否有直接联系 Greenplum模糊字符串匹 配函数Soundex() 可以 知道姓名是否发音是 ‘Pavan’或‘Peter’ Greenplum Time 函数计算24 小时内的取款时间 金额 > $200 23 2018 (compressed) 1. 24 个生产集群 2. 2个选项: 20个节点或 40个节点 3. 600+ 服务器, 13k+ 核, 81PB存储(增长 中) 4. 2.5PB 或 25PB 原始数据 按10x压缩率 1 2 3 4 Greenplum在摩根士丹利 OLTP - Online transaction processing - 联机事务处理 出色的OLTP特性0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商优刻得 82/206 udw 的数据类型和 postgresql 基本⼀致,在选择数据类型的时候应该尽可能占⽤空间⼩,同时能够保证存储所有可能的数值并且最合理地表达数据。 使⽤字符型数据类型保存字符串,⽇期或者⽇期时间戳类型保存⽇期类型,数值类型来保存数值。 使⽤ VARCHAR 或者 TEXT 来保存⽂本类数据。不推荐使⽤ CHAR 类型保存⽂本类型。VARCHAR 或 TEXT 类型对于数据末尾的空⽩字符将原样保存和处理,但是 ---------------- 2126 MB ⽅法三:创建新表,导⼊数据 ⽅法三:创建新表,导⼊数据 CREATE TABLE...AS SELECT 命令把该表拷⻉为⼀个新表,新建的表将不会出现膨胀现象。然后删除原始表并且重命名拷⻉的表。 参考: https://gp-docs-cn.github.io/docs/best_practices/bloat.html https://docs.ucloud.cn/udw/developer 的话,那么使⽤转换函数; 或者产⽣⼀个 JSON 标量 (scalar)值。 数字、布尔值和空值(null)之外的其他标量会被表⽰为⽂本格式, 并通过正确的引⽤和转义来保证它是⼀个合法的 JSON 字符串。如下所⽰: array_to_json(anyarray [, pretty_bool]) UDW中Json类型 Greenplum数据仓库 UDW Copyright © 2012-20210 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum机器学习⼯具集和案例信息价值和证据权 重 成对相关性 删除⾼高度相关变量量 逻辑回归 计算 KS 分值 模型验证 ⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 特征⽣生成 验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 逻辑回归 Elastic 次逻辑回归迭代需要 ~30 分钟 ● 376 个变量量,运⾏行行⼀一次 逻辑回归迭代需要 ~1.86 分钟 ~16x/迭代 ⼯工作流程优化 2017.thegiac.com 原始模型 改良后的模型 ● 模型精确度 = 99.7% ● 真正率(True Positive Rate) = 0% ● 模型精确度= 62.8% ● 真正率 = 66% X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动 化 X 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客 户 商业影响 2017.thegiac.com 用户案例例2 基于API日志的⾦金金融产品⽤用户分析 2017.thegiac0 码力 | 58 页 | 1.97 MB | 1 年前3
基于 Greenplum 打造SaaS化电商服务平台•2019年7月上线ADB分 担极端复杂的在线分 析,有待验证 数据集市 报表 CRM 胜算 …… …… …… …… 数据仓库演变 2015 2016 2017 2018 2019 2014原始阶段 2016.4全新报表界面:梳理业务、开发报表 2016.9自建GP集群,上线工作量统计 2018.3HDB4PG 2017.1报表全面迁移至GP 2017.6集群拆分 2018.9全面切换HDB4PG0 码力 | 7 页 | 547.94 KB | 1 年前3
Greenplum 架构概览发起查询请求时,Master 节点上的 postmaster 进程将会 fork 出⼀个⼦进程,叫做 Query Dispatcher(分发 器),简称为 QD 进程 QD 进程会对收到的查询请求进⾏处理,包括解析原始查询语句、优化器优化以及⽣成分布式查询计划,然后将查询计划通过 libpq 库发送 给其它的 Segment 节点 Query Executor Segment 节点上同样是 PG 进程,所以仍然由0 码力 | 1 页 | 734.79 KB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考支持符合条件的新业务 Ø 抽象业务模型,整合使用分类 Ø 简化上线模型,优化上线方式 40 Greenplum扩展规划 新业务上线流程 • 把握三个方面,解决三个问题 Ø 确认数据来源与传输,解决原始数据从那里来的问题 Ø 确认数据如何计算,解决数据存储和计算加工的问题 Ø 确认数据集市状态,解决结果数据最终展示的问题 • 实现方式 Ø OLAP与OLTP不同,没有非常固定的方式 Ø 没有事务性工作0 码力 | 43 页 | 9.66 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台GREENPLUM 5:新一代数据平台 GPORCA:Pivotal 查询优化器更新 对直到最近,Greenplum 一直采用传统查询优化器 (LQO) 。这是适用于 Greenplum 代码库的原始 PostgreSQL 规划器的衍 生产品。PostgreSQL 规划器最初是为单节点 PostgreSQL 设计的,更适用于 OLTP 查询,而不是分析数据平台中长时间运 行的查询。尽管具有精心设0 码力 | 9 页 | 690.33 KB | 1 年前3
共 10 条
- 1













