Greenplum 精粹文集Startup 公司,创始人家门口有 一棵青梅 ——greenplum,因此而得名)召集了十几位业界大咖(据 说来自 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多 个 Postgresql 实例的高效协同和并行计算,Interconnect 承载了并行 查询计划生产和 Dispatch 这个问题大致引申出两个问题: 1) 为什么不从数据库底层进行重新设计研发? 所谓术业有专攻,就像制造跑车的不会亲自生产车轮一样,我们只 要专注在分布式技术中最核心的并行处理技术上面,协调我们下面 的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像 车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql0 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 询。与旧式 MPP 数据库中常用的传统 RDBMS 查询优化器相比,GPORCA 大幅度地提高了查询性能。 Greenplum 5 带来了多项产品改进和新增功能,在管理数据和对数据库中存储的信息应用数据 科学、分析、报告和数据洞察方法方面,这些功能对大多数客户都很有帮助。Greenplum 解决方案的架构设计目的是管理 非常复杂的查询,以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或 Greenplum 代码库的原始 PostgreSQL 规划器的衍 生产品。PostgreSQL 规划器最初是为单节点 PostgreSQL 设计的,更适用于 OLTP 查询,而不是分析数据平台中长时间运 行的查询。尽管具有精心设计的连接排序之类的功能,但架构和设计选项导致维护和添加新功能变得越来越难。1 2010 年底,Greenplum 开始在内部开发一款新型查询优化器,并在 Greenplum0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商外部表并⾏加载数据 从hdfs加载数据 从mysql中导⼊数据 从oracle中导⼊数据 从ufile加载数据 开发指南 开发指南 1、连接数据库 2、数据库管理 3、模式管理 4、表格设计 5、加载数据 6、分区表 7、序列 8、索引 9、 ANALYZE/VACUUM 10、常⽤SQL⼤全 12、常⽤SQL命令 13、⽤⼾⾃定义函数 ⽬录 Greenplum数据仓库 testSchema CASCADE; 4、表格设计 、表格设计 udw 的表格创建类似于 postgresql,由于 udw 采⽤ mpp 数据,创建表格的时候可以选择不同的数据分布策略,不同的存储⽅式等等。创建表格的时候可以定义下⾯信息: 数据类型 表约束 数据分布策略 表存储模型 分区策略 外部表:udwfile、udwhdfs 下⾯分别根据上⾯的可选信息对表格设计进⾏分析。 4.1 数据类型 数据类型 ('BG'), DEFAULT PARTITION other ); 6.2查看分区表信息 查看分区表信息 通过 pg_partitions 视图,您可以查看分区表设计信息。下⾯⽰例可以查看 p_store_sales 表的分区设计信息: SELECT partitionboundary, partitiontablename, partitionname, partitionlevel, partitionrank0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1..................................................................................... - 127 - 查看分区设计 .................................................................................................. ....................................................................................... - 391 - 模式设计................................................................................................... 手动操作,因为 GP 并未提供删除 Mirror 的标准命令,删除 Mirror 的操作,对于 6 版本来说,和 4 版本与 5 版本是不同的,因为 6 版本中,系统表中记录 Mirror 关系 的系统表设计已经发生了重大变化。 Mirror 使得数据库查询在 Primary 不可用时可以自动切换到 Mirror 上。为了 配置 Mirror,GP 系统需要有足够多的主机,从而可以确保作为冗余角色的0 码力 | 416 页 | 6.08 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密深度揭秘Greenplum开源数据库 透明加密 Greenplum 研发工程师 王淏舟 1. 我们所面临的问题 2. 基于pgcypto的数据加密方案 3. GPDB数据透明加密方案设计 4. GPDB数据透明加解密流程 5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 https://github.com/greenplum-db/gpdb Recall GPDB数据透明加密方案设计 GPDB TDE GPDB透明加密 加密目标 • 表数据 • 预写日志数据 • 主从节点所有数据 • 索引及其他表辅助数据 • 磁盘缓存文件 设计目标 • 对用户和数据库透明 • 高性能,使用CPU加密指令集 • 内核原生 GPDB透明加密 加密 Planer0 码力 | 48 页 | 10.19 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考表定义过大 Ø 表类型单一 Ø 表的散列键不恰当 Ø 分区表的分区键性能不佳 • 加载易出现问题 Ø 文件加载出现特殊字符 Ø 数据校验标准问题 35 Greenplum开发规范 业务库表设计规范 • GP中表的范围 Ø 最大时间为年表 Ø 数据量小,可用单表 • 多种表类型 Ø 堆表 (选好常用列作为三列键) Ø 分区表 (按照 yyyymmdd 分区,建议都添加 datenum Greenplum扩展规划 六 39 Greenplum扩展规划 整体扩展思路 • OLAP三大模块不断完善 Ø 通过dbsync程序,实现数据传输和加载优化 Ø 对于Greenplum上的架构和设计不断优化 Ø 继续建设多样化的postgresql数据集市,满足不同需求 • 优化现有业务的调度实现 Ø 时间周期的考量 Ø 并发与功能实现的权衡 Ø 增强任务可控性和可度量性 • 支持符合条件的新业务0 码力 | 43 页 | 9.66 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum了欧拉开源操作系 统平台架构、创新性及核心特点, 同时介绍了 Greenplum 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原则,用全新的HTAP核心设计满足实时处理业务需求。在此也为所有为Greenplum on openEuler 成功测试运行所做努力贡献的人员表示感谢! 摘要 Greenplum 不受限于基础架构,这意味着它是一 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum上云与优化AWS Redshift? “有史以来卖的最好的云服务” 对比项目 ApsaraDB for Greenplum(SSD/SATA) AWS RedShift 外部表 支持OSS外部表 无此设计 地理信息支持 支持(自带PostGIS) 不支持 分区表支持 支持 不支持 数据类型 支持所有PostgreSQL 9.0以下类型 支持11个PostgreSQL类型 横向扩容 支持 支持,需要停机(数分钟)0 码力 | 26 页 | 1.13 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享All rights reserved. Greenplum 简介 4 Pivotal Confidential–Inter nal Use Only GPDB:为大数据存储、计算、挖掘而设计 标准 SQL 数据库:ANSI SQL 2008 标准,OLAP,JDBC/ODBC 支持ACID、分布式事务 分布式数据库:线性扩展,支持上百物理节点 企业级数据库:全球大客户超过0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案www.greenplum.com www.greenplum-china.com Greenplum:简介 Greenplum数据引擎软件为新一代数 据仓库所需的大规模数据和复杂查询功 能所设计 3 推动数据依赖型企业的发展 全球各地的一些Greenplum客户 4 亚太地区 欧洲、中东、非洲 北美 中国的客户 5 金融 交通 互联网 其它 Teradata Netezza0 码力 | 45 页 | 2.07 MB | 1 年前3
共 11 条
- 1
- 2













