Greenplum 分布式数据库内核揭秘Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台,具有良好的弹性 和线性拓展能力,内置并行存储、并行通信、并行计算和并行优化功能,兼容 SQL 标准。拥有独 特的高效的 ORCA 优化器,具有强大、高效的 PB 级数据存储、处理和实时分析能力,同时支持 OLTP 型业务的混合负载。 Greenplum 分布式数据库简介 5 Confidential │ ©20210 码力 | 31 页 | 3.95 MB | 1 年前3
Greenplum机器学习⼯具集和案例抽取会话特征 根据原始特征 对用户聚类 建模过程 对API请求结合超时和 K-means聚集处理理 2017.thegiac.com 会话识别 API 请求 ⽇日志 抽取会话特 征 根据原始特征 对用户聚类 主题模型 对主题进行K- Means聚类 建模过程 对API请求结合超时和 K-means聚集处理理 2017.thegiac.com0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1段的每一个不同的值存储一个位图,用二进制的1和0来标识是否有该值的记录。普通 的索引,尺寸有时可能会比表中的数据尺寸大几倍,而位图索引的尺寸可能只有表中数 据尺寸的N分之一。当然,如果未来GP引入了BRIN索引,可能其尺寸会更小,对于特 定场景的性能也会更高。 位图的每个bit对应表中记录的tuple ID,被标记的bit意味着对应的tuple ID 的记录包含这个位图的字段值。数据的实际位置可以通过映射函数得到。位图索引以压 DL信息存储在 Master上,而业务表中的数据,会通过COPY . . . ON SEGMENT命令将数据备份 到每个Primary所在的主机上,采用的是压缩CSV格式。编者认为,CSV格式并没有特 别的优势,采用gzip压缩也没有特别的优势,首先CSV格式输出也是需要转义的,因 为数据库中的数据总是有各种可能,使用缺省的TAB分割的文本格式输出没有什么不好, Greenplum Database GP集群的主机名称,按照惯例,采用sdwN的形式,其中sdw是前缀,N是数字后 缀,如果需要,可以将前缀改为任何Alpha字符串,建议不要使用任何的特殊字符或者 大写字符,建议使用容易记住和辨识的前缀,这对于后续的使用和运维是有帮助的,特 别拗口的名称并不利于交流和书写记忆。另外,编者提醒,数字后缀,应该采用定长数 字,不足的位置为使用0补位,因为,比如在GPCC中,在gpinitsystem时,主机名 是按照字符串进行排序的,sdw0 码力 | 416 页 | 6.08 MB | 1 年前3
共 3 条
- 1













