字符类 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum Database 管理员指南 6.2.1

编写：陈淼 - 30 - 具有权限查看 pg_authid 系统表的用户都可以看到加密后的密码，不过这些密码都是经过 MD5 加密后的字符串，由于 MD5 加密算法的不可逆性，查看者无法看到真实的原始明文密码。当进行 DDL 的备份和恢复时，操作的是加密后的字符串，无法获取真实的明文密码串。在设置密码的时候，密码就被加密了： =# CREATE USER name WITH ENCRYPTED rolname='name'; rolpassword 密码除了使用 MD5 进行加密，还可以使用 SHA-256 算法进行加密，该算法生成一个 64 字节的十六进制字符串，前缀为 sha256 字符。MD5 算法生成的加密密码前缀为 md5 字符。pg_authid 系统表中存储的加密密码，是通过对密码拼接用户名之后的字符串执行相应的加密算法得到的，同时以加密时的加密算法名作为前缀。例如： =# 文件，不过，缺省情况下这些命令会自动完成这些必要的修改操作。 pg_hba.conf 是一个平面文件，按照行来区分每条记录。空行会被忽略，任何在 (#)后的字符串都会被忽略。每行记录由一系列 Space 和 Tab 混合分割的属性组成。如果需要在属性中出现空白字符，需要将该属性用引号引起来。记录不可跨行。每条远程客户端的访问许可，都像这种格式： host database role CIDR-address

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

Greenplum 的 Contributor 贡献者，随着社区的发展将推动 GreenplumMPP 数据库走向新的高速发展旅程。（分享一下开源的直接好处，最近我们某用户的一个特殊需求，加载数据中有回车等特殊字符，我们下载了 GP 外部表 gpfdist 源代码，不到一天就轻松搞定问题） Greenplum 也正在积极的拥抱云计算，Cloud Foundry 的 PaaS 云平台正在技术考虑把 Greenplum 易扩展等方面的卓越表现是分不开的。 1. 高吞吐该客户大数据平台的 ODS 区，接入了源端近百个业务系统的生产数据，每天需要加载进来的数据大概 5TB 左右。标准化处理完成后，需要给后端的公共访问、类别繁多的沙箱类应用供数。每月月初，业务繁忙时段，保守估计平均每天需要给下游系统提供 10TB 的压缩数据。如此大规模数据处理，加上严格的数据时效性要求，不选择 Greenplum 这种吞吐性能特别优秀的产品，很难满足业务部门致坏盘在读写性能非常差的情况下仍然对外提供服务，最终将整个集群拖慢。 ·如果客户的实际应用还存在大量较高并发的小 IO 操作，比如随机查询，可以考虑 SSD+SAS+ 表空间的方式，并将随机 IO 类应用对应的表放在 SSD 设备上，从而有效的隔离底层 IO，达到更好 SLA。某电信用户存在大量对 400 个字段以上大宽表的随机查询场景，之前由于 IO 资源争用，在批量作业调起时随机查询响应时间显著增加，

0 码力 | 64 页 | 2.73 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

数据仓库体系架构架构的具体技术实现 • 轻量级数据仓库 —— Inforbright – 与MySQL数据库结合，易使用，冷热分离 – 数据库归档，只能load，不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明资源不足 Ø 连接、语句执行失败 Ø 多任务冲突 • 库表使用易出现问题 Ø 表定义过大 Ø 表类型单一 Ø 表的散列键不恰当 Ø 分区表的分区键性能不佳 • 加载易出现问题 Ø 文件加载出现特殊字符 Ø 数据校验标准问题 35 Greenplum开发规范业务库表设计规范 • GP中表的范围 Ø 最大时间为年表 Ø 数据量小，可用单表 • 多种表类型 Ø 堆表（选好常用列作为三列键）

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 排序算法

多键排序是Greenplum特有的一种排序方式，它的优势主要是对具有相同前缀的字符串进行高效排序。 ● 在现实世界里，拥有相同前缀的字符串是非常常见的，比如URL都以https://为前缀，每个具体站点也拥有自己的前缀，比如Greenplum站点的每篇文章都以 https://cn.greenplum.org/为前缀。对这些字符串进行排序的时候，多键排序优势明显。多键排序 40 ● 多键排序算法：快速排序的扩展多键排序算法：快速排序的扩展 ● 假设待排序数组为a，数组元素是长度为K的字符串，多键排序 41 多键排序 42 ● Group Aggregation ● Merge Join ● Distinct Aggregation ● Sorted Motion 排序在Greenplum中的应用 43 ● Greenplum的聚集节点使用两种聚集方式：哈希聚集和分组聚集。 ●

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

基本⼀致，在选择数据类型的时候应该尽可能占⽤空间⼩，同时能够保证存储所有可能的数值并且最合理地表达数据。使⽤字符型数据类型保存字符串，⽇期或者⽇期时间戳类型保存⽇期类型，数值类型来保存数值。使⽤ VARCHAR 或者 TEXT 来保存⽂本类数据。不推荐使⽤ CHAR 类型保存⽂本类型。VARCHAR 或 TEXT 类型对于数据末尾的空⽩字符将原样保存和处理，但是 CHAR 类型不能满⾜这个需求。请参考 CREATE TABLE 13、⽤户⾃定义函数、⽤户⾃定义函数 udw ⽀持⽤⼾⾃定义函数，关于⽤⼾⾃定义函数请参考：官⽅⽂档 udw优化指南优化指南 1 数据类型数据类型通过选择最合适的数据类型可以节省磁盘空间，提⾼查询性能。字符类型的数据建议使⽤ TEXT 或者 VARCHAR 类型，不要使⽤ CHAR 类型。TEXT 或者 VARCHAR 类型能够减少存储空间。选取合适的数字类型，如 INT 或者 SMALLINT 能满⾜业务需求时，使⽤的话，那么使⽤转换函数；或者产⽣⼀个 JSON 标量（scalar）值。数字、布尔值和空值（null）之外的其他标量会被表⽰为⽂本格式，并通过正确的引⽤和转义来保证它是⼀个合法的 JSON 字符串。如下所⽰： array_to_json(anyarray [, pretty_bool]) UDW中Json类型 Greenplum数据仓库 UDW Copyright © 2012-2021

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

问题 ● 更更好地理理解不不同种类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ● 对实时API请求进⾏行行分类和安全检测 ● 数据量量⼤大，现有数据分析团队缺乏技能客户数据科学解决⽅方案 ● 某⼤大型跨国⾦金金融服务公司 ● 移动应⽤用 API 分析 ● 使⽤用Madlib进⾏行行聚类分析，建⽴立会话识别模型和主题模型抽取会话特征根据原始特征对用户聚类验证聚类结果评分对API请求结合超时和 K-means聚类处理理主题模型对主题进⾏行行K- means聚类 S 标记回话⼈人⼯工审查新会话建模过程 2017.thegiac.com 会话识别 API 请求⽇日志对API请求结合超时和 K-means聚类处理理建模过程 2017 会话1 会话2 会话3 基于时间的会话化时间+聚类 2017.thegiac.com 会话识别 API 请求⽇日志建模过程对API请求结合超时和 K-means聚集处理理 2017.thegiac.com 会话识别 API 请求⽇日志抽取会话特征根据原始特征对用户聚类建模过程对API请求结合超时和 K-means聚集处理理

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

物理模型对于系统性能有很大影响，因此需要我们特别关注。以下来自于在某大型银行的使用经验：行存储和列存储： • 避免过多使用列存储的原因是防止小档数过多。 • 列存储能够提升查询性能，对于更新和全字段类操作性能反而会下降 • 对于少数频繁查询的宽表，例如交易表、帐户表、客户表等采用列存储，其它表采用行存储数据压缩： • 在金融业，行压缩的数据压缩比在1:6左右，一般采用zlib5级压缩使用B-Tree索引，对于区别度低的字段（<10000),采用 Bitmap索引； • 表关联时，一般不需要建索引，如果where条件的筛选性很强，建立索引可以让系统性能提升 • 对于大数据类系统，应避免使用PK,UI,FK,唯一性约束或参考性检查将导致性能大幅下降； • 大数量更新时，应先删除索引，更新/加载数据后再重建索引，或者采用分区交换降低对目标表的影响临时空间的监控和管理

0 码力 | 41 页 | 1.42 MB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

度方圆2KM的范围 GPText.search() 函数可以知道是否一个人在 Pivotal工作 Greenplum MADlib BFS 算法可以知道两个之间是否有直接联系 Greenplum模糊字符串匹配函数Soundex() 可以知道姓名是否发音是 ‘Pavan’或‘Peter’ Greenplum Time 函数计算24 小时内的取款时间金额 > $200 23 2018

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Greenplum 架构概览

MySQL 的主从模型、Redis 的主从模型在 Master-Segment 模型下，⾸先 Master 节点不存储数据，其次就是数据将会以分⽚的⽅式存储在多个 Segment 节点中。这⾥可以类⽐ Redis Cluster，只不过 Redis Cluster 是去中⼼化的。在 Master-Segment 模型中通常也会包含 Master-Slave 模型，也就是增加数据副本，以实现⾼可⽤

0 码力 | 1 页 | 734.79 KB | 1 年前
3
Greenplum 6新特性: 在线扩容工具GPexpand剖析

localoid 表的OID policytype 分布类型 ‘p’ 分区 ‘r’ 复制表 numsegments 表分布在多少个节点上 diskkey 分布列的序号 distclass 分布列的操作类 GPExpand简介与具体用法 • GPExpand是Greenplum的扩容工具，可以为集群增加新的节点来支持更大容量的存储和更高的计算能力。 • 随着Greenplum一起安装发布，在$GPHOME/bin下面，和其

0 码力 | 37 页 | 1.12 MB | 1 年前
3

共 14 条前往

页

分类

语言

格式