原始字符串 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum Database 管理员指南 6.2.1

编写：陈淼 - 30 - 具有权限查看 pg_authid 系统表的用户都可以看到加密后的密码，不过这些密码都是经过 MD5 加密后的字符串，由于 MD5 加密算法的不可逆性，查看者无法看到真实的原始明文密码。当进行 DDL 的备份和恢复时，操作的是加密后的字符串，无法获取真实的明文密码串。在设置密码的时候，密码就被加密了： =# CREATE USER name WITH ENCRYPTED WHERE rolname='name'; rolpassword 密码除了使用 MD5 进行加密，还可以使用 SHA-256 算法进行加密，该算法生成一个 64 字节的十六进制字符串，前缀为 sha256 字符。MD5 算法生成的加密密码前缀为 md5 字符。pg_authid 系统表中存储的加密密码，是通过对密码拼接用户名之后的字符串执行相应的加密算法得到的，同时以加密时的加密算法名作为前缀。例如： Instance 的 pg_hba.conf 文件，不过，缺省情况下这些命令会自动完成这些必要的修改操作。 pg_hba.conf 是一个平面文件，按照行来区分每条记录。空行会被忽略，任何在 (#)后的字符串都会被忽略。每行记录由一系列 Space 和 Tab 混合分割的属性组成。如果需要在属性中出现空白字符，需要将该属性用引号引起来。记录不可跨行。每条远程客户端的访问许可，都像这种格式： host

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

知名电商的大数据平台）；而有些则直接绕开了 Mapreduce 另起炉灶，如 Impala、hawq 采用借鉴 MPP 计算思想来做查询优化和内存数据 Pipeline 计算，以此来提高性能。虽然 SQL-On-Hadoop 比原始的 Mapreduce 虽然在易用上有所提高，但在 SQL 成熟度和关系分析上目前还与 MPP 数据库有较大差距。上述系统，除了 HAWQ 外，对 SQL 的支持都非常有限，特别是分析型复杂中能够直接将变量写进 SQL，同时，极度厌烦字符串拼接的方式 ( 双竖线 ) 去拼凑 SQL。不但如此，你还希望在 pgAdmin3 中能够高亮显示你的所有 SQL，哇，太酷了！！那么，plperl/plperlu 函数语言是你不二的选择，赶快拥抱吧，抛弃 sql 和 plpgsql。建议你在 plperl 中使用 qq{} (double quote) 来表示多行字符串，其中可以直接使用各种变量表达式。如果你愿意，你还可 INT PRIMARYKEY, ssn VARCHAR, rating INT, rating_date DATE ) DISTRIBUTED BY (id) 它不能保存磁盘上的原始数据，需要通过 Protegrity 提供的功能访问进入 SSN 字段的数据以对数据进行标记化，并在提取数据的时候解除标记。如果我们希望简单地将标记过的数据放入到数据库中，那么我们将使用： Big

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum 排序算法

● 移除堆顶元素，完成排序堆排序 1 2 3 5 6 8 9 5 9 2 1 3 6 8 20 ● 堆排序算法堆排序 21 ● 归并排序分为两个阶段，阶段一是分割阶段，将原始待排序数据分成若干个顺串。阶段二是合并阶段，将所有小顺串合并成一个包含所有数据的大顺串外排序之归并排序 1 7 4 8 1 7 4 8 1 4 7 8 待排序数据分割阶段合并阶段多键排序是Greenplum特有的一种排序方式，它的优势主要是对具有相同前缀的字符串进行高效排序。 ● 在现实世界里，拥有相同前缀的字符串是非常常见的，比如URL都以https://为前缀，每个具体站点也拥有自己的前缀，比如Greenplum站点的每篇文章都以 https://cn.greenplum.org/为前缀。对这些字符串进行排序的时候，多键排序优势明显。多键排序 40 ● 多键排序算法：快速排序的扩展多键排序算法：快速排序的扩展 ● 假设待排序数组为a，数组元素是长度为K的字符串，多键排序 41 多键排序 42 ● Group Aggregation ● Merge Join ● Distinct Aggregation ● Sorted Motion 排序在Greenplum中的应用 43 ● Greenplum的聚集节点使用两种聚集方式：哈希聚集和分组聚集。 ●

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

度方圆2KM的范围 GPText.search() 函数可以知道是否一个人在 Pivotal工作 Greenplum MADlib BFS 算法可以知道两个之间是否有直接联系 Greenplum模糊字符串匹配函数Soundex() 可以知道姓名是否发音是 ‘Pavan’或‘Peter’ Greenplum Time 函数计算24 小时内的取款时间金额 > $200 23 2018 (compressed) 1. 24 个生产集群 2. 2个选项: 20个节点或 40个节点 3. 600+ 服务器, 13k+ 核, 81PB存储（增长中） 4. 2.5PB 或 25PB 原始数据按10x压缩率 1 2 3 4 Greenplum在摩根士丹利 OLTP - Online transaction processing - 联机事务处理出色的OLTP特性

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

优刻得 82/206 udw 的数据类型和 postgresql 基本⼀致，在选择数据类型的时候应该尽可能占⽤空间⼩，同时能够保证存储所有可能的数值并且最合理地表达数据。使⽤字符型数据类型保存字符串，⽇期或者⽇期时间戳类型保存⽇期类型，数值类型来保存数值。使⽤ VARCHAR 或者 TEXT 来保存⽂本类数据。不推荐使⽤ CHAR 类型保存⽂本类型。VARCHAR 或 TEXT 类型对于数据末尾的空⽩字符将原样保存和处理，但是 ---------------- 2126 MB ⽅法三：创建新表，导⼊数据⽅法三：创建新表，导⼊数据 CREATE TABLE...AS SELECT 命令把该表拷⻉为⼀个新表，新建的表将不会出现膨胀现象。然后删除原始表并且重命名拷⻉的表。参考： https://gp-docs-cn.github.io/docs/best_practices/bloat.html https://docs.ucloud.cn/udw/developer 的话，那么使⽤转换函数；或者产⽣⼀个 JSON 标量（scalar）值。数字、布尔值和空值（null）之外的其他标量会被表⽰为⽂本格式，并通过正确的引⽤和转义来保证它是⼀个合法的 JSON 字符串。如下所⽰： array_to_json(anyarray [, pretty_bool]) UDW中Json类型 Greenplum数据仓库 UDW Copyright © 2012-2021

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

信息价值和证据权重成对相关性删除⾼高度相关变量量逻辑回归计算 KS 分值模型验证⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理特征⽣生成验证预测信息价值⽅方差膨胀因⼦子成对相关性逻辑回归 Elastic 次逻辑回归迭代需要 ~30 分钟 ● 376 个变量量，运⾏行行⼀一次逻辑回归迭代需要 ~1.86 分钟 ~16x/迭代⼯工作流程优化 2017.thegiac.com 原始模型改良后的模型 ● 模型精确度 = 99.7% ● 真正率(True Positive Rate) = 0% ● 模型精确度= 62.8% ● 真正率 = 66% X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动化 X 代码复杂冗余，很多数据类型转换 ✓ 代码更更精简，更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客户商业影响 2017.thegiac.com 用户案例例2 基于API日志的⾦金金融产品⽤用户分析 2017.thegiac

0 码力 | 58 页 | 1.97 MB | 1 年前
3
基于 Greenplum 打造SaaS化电商服务平台

•2019年7月上线ADB分担极端复杂的在线分析，有待验证数据集市报表 CRM 胜算 …… …… …… …… 数据仓库演变 2015 2016 2017 2018 2019 2014原始阶段 2016.4全新报表界面：梳理业务、开发报表 2016.9自建GP集群，上线工作量统计 2018.3HDB4PG 2017.1报表全面迁移至GP 2017.6集群拆分 2018.9全面切换HDB4PG

0 码力 | 7 页 | 547.94 KB | 1 年前
3
Greenplum 架构概览

发起查询请求时，Master 节点上的 postmaster 进程将会 fork 出⼀个⼦进程，叫做 Query Dispatcher（分发器），简称为 QD 进程 QD 进程会对收到的查询请求进⾏处理，包括解析原始查询语句、优化器优化以及⽣成分布式查询计划，然后将查询计划通过 libpq 库发送给其它的 Segment 节点 Query Executor Segment 节点上同样是 PG 进程，所以仍然由

0 码力 | 1 页 | 734.79 KB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

支持符合条件的新业务 Ø 抽象业务模型，整合使用分类 Ø 简化上线模型，优化上线方式 40 Greenplum扩展规划新业务上线流程 • 把握三个方面，解决三个问题 Ø 确认数据来源与传输，解决原始数据从那里来的问题 Ø 确认数据如何计算，解决数据存储和计算加工的问题 Ø 确认数据集市状态，解决结果数据最终展示的问题 • 实现方式 Ø OLAP与OLTP不同，没有非常固定的方式 Ø 没有事务性工作

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

GREENPLUM 5：新一代数据平台 GPORCA：Pivotal 查询优化器更新对直到最近，Greenplum 一直采用传统查询优化器 (LQO) 。这是适用于 Greenplum 代码库的原始 PostgreSQL 规划器的衍生产品。PostgreSQL 规划器最初是为单节点 PostgreSQL 设计的，更适用于 OLTP 查询，而不是分析数据平台中长时间运行的查询。尽管具有精心设

0 码力 | 9 页 | 690.33 KB | 1 年前
3

共 10 条前往

页

分类

语言

格式