Greenplum 新一代数据管理和数据分析解决方案最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥,加利福尼亚州,美国,成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站: www.greenplum.com www.greenplum-china.com Greenplum:简介 Greenplum数据引擎软件为新一代数 据仓库所需的大规模数据和复杂查询功 2008年亚洲南 部地区成就奖 “可能会成为数据仓库和数据 库管理系统市场的突破力量” Gartner的Donald Feinberg 17 通过Greenplum超级数据处 理引擎增强竞争优势 Greenplum数据引擎:内容和方式 价值主张 – 性价比: 性能可达到传统方案(Oracle、Teradata)的 10到100倍, 而成本只是其一小部分 – 可伸缩性:从较低的万亿字节扩展到千万亿字节 硬件:基于开放式标准硬件 – 软件:Postgres和Greenplum – 体系架构:海量并行处理体系,针对商务智能/数据仓库 进行了优化,解决了所有数据流瓶颈问题 Greenplum数据引擎 全球最强大的分析数据仓库 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、 ELT、文本挖掘、统计0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 任务管理 服务 加载 & 数据联邦 高速数据加载 近实时数据加载 任意系统数据访问 存储 & 数据访问 混合存储引擎(行存&列存) 多种压缩,多级分区表 索引(B树,位图,GiST) 安全性 语言支持 Package COPY Command ON SEGMENT Clause … 38 Pivotal Confidential–Inter nal Use Only PostgreSQL 合并 39 Pivotal Confidential–Inter nal Use Only CPU资源管理 40 Pivotal Confidential–Inter nal Use Only0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1年,Pivotal 被兄弟公司 VMWare 收购,由 VMWare 继续运营。近年来,Greenplum 在国内建立了一个较大规模的研发团队,越来越多的承担更重要的研发任务,包括 PostgreSQL 的版本合并等,从而,可以为国内商业用户提供更专业和更优质的本地 化服务,用户遇到问题,反馈给专业技术支持人员,或者专业售后服务团队,他们会同 用户一起排查和解决问题,如果有需要,还会保持与研发的持续沟通,虽然以前也是这 PostgreSQL 客户端程序(如 psql、pgAdminIII)和应用程序 接口(APIs(如 JDBC、ODBC))连接 GP。不过,GP 在 5 版本和 6 版本中,因为 PostgreSQL 版本的不断合并,有不少系统表的发生了变化,所以,原有适用的客户 端,可能需要一定的适配开发工作,才能适用新的 GP 版本,编者目前在对 pgAdminIII 进行 5 版本和 6 版本的适配和改造,主要服务商业付费用户。 之间的对应关系也可以达到网络保障的效果,但依然强烈建议采用网卡绑 定的方式实现网络的高可用。建议采用支持 802.3ad 协议的交换机以实现多网口的链 路聚合,这样,在操作系统层面,多个物理网口将聚合并表现为一个 IP 地址,当任何 的网络或者交换机出现故障时,在操作系统级别将不会有任何的连接性异常的感知,只 是网络带宽出现下降,整个数据库集群的 Instance 状态将不会受到任何影响。如果 选择将0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 排序算法● 堆排序算法 堆排序 21 ● 归并排序分为两个阶段,阶段一是分割阶段,将原始待排序数据分成若干个顺 串。阶段二是合并阶段,将所有小顺串合并成一个包含所有数据的大顺串 外排序之归并排序 1 7 4 8 1 7 4 8 1 4 7 8 待排序数据 分割阶段 合并阶段 22 ● 问题一:分割阶段只需要顺序扫描一次外存,最简单的策略是读取外存数据,加 载到内存,当内存用满时,执行快 载到内存,当内存用满时,执行快速排序等内排序算法,生成一个顺串。之后清 空内存,继续读取外存数据,如此反复,直到所有外存数据处理完毕。该算法生 成的每一个顺串的大小都不会超过内存的大小,而顺串越小,合并阶段的代价 就越高,需要读取外存的次数也越多,有没有办法在分割阶段就生成大于内存 大小的顺串呢? 归并排序的三个问题 23 替换选择算法 24 Knuth 5.4.1R替换选择算法: ● 1. 初始化阶段,读取输入元组至内存,并建立最小堆。 25 ● 问题二:合并阶段假设存在N个输入缓冲区,如何高效的比较N个输入缓冲区的 最小值,并输出到输出缓冲区? 归并排序的三个问题 26 ● 假设顺串(长度为L)分布在K个文件中,顺串合并时需要K个输入缓冲区和1个输 出缓冲区,每次选取K个缓冲区的最小值,输出到输出缓冲区。最后,输出缓冲 区输出的顺串长度为L*K ● 算法复杂度 O(K* (L*K)) 顺串合并 1 10 30 440 码力 | 52 页 | 2.05 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum。 openEuler 平台架构 openEuler 是覆盖全场景的创新平台,在引领内核创新,夯实云化基座的基础上,面向计算架构互联总线、存储介质 发展新趋势,创新分布式、实时加速引擎和基础服务,结合边缘、嵌入式领域竞争力探索,打造全场景协同的面向数字 基础设施的开源操作系统。 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum GreenplumDB 6.17.0 版本本次测试,共计执行回归用例 930 个,其中核心数据库引擎用例 534 个,隔离级别用例 240 个,失败 1 个(疑似虚机资源问题)。其它功能测试若干,手动验证用例 2 个(SSL 工具版本问题),管理工具脚 本用例 455 个。整体质量良好。 测试活动 tempest 集成测试 核心引擎 全部 534 用例通过 隔离级别 240 用例失败 1 个 其它0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 精粹文集分布式存储和分布式计算理论刚刚被提出来,Google 的两篇著名论文 发表后引起业界的关注,一篇是关于 GFS 分布式文件系统,另外一篇 是关于 MapReduce 并行计算框架的理论,分布式计算模式在互联网 行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 所谓术业有专攻,就像制造跑车的不会亲自生产车轮一样,我们只 要专注在分布式技术中最核心的并行处理技术上面,协调我们下面 的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像 车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台大幅减少事务开始和结束时的锁冲突 ■ 消除隐式只读操作(单条SELECT)的锁冲突 ■ 避免显式只读事务(BEGIN-SELECT-END)的两阶段提交 (开发中) ■ fastpath锁(PostgreSQL合并) 32 Pivotal Confidential–Internal Use Only TPC-B基准测试:环境 基于谷歌云平台(Google Cloud Platform,简称GCP),为5个虚拟主机的集群,包含一 并发数 插入间隔 平均时延 最长时延 插入速度 9.8亿 18 4 12 16 500ms 170ms 1100ms 300万/s 展望 Greenplum 6.x/7 ■ PostgreSQL合并:BRIN索引和并行扫描 ■ 锁和事务的优化 ■ 磁盘IO的资源管理 ■ 更多思路? 资源 ■ 中文社区:http://greenplum.cn ■ 文档:https://gpdb.docs0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum上云与优化T_OSS Where ts > 2016 Insert into T_OSS Select count(*) from T_GP Group by city OSS作为“数据湖”,GP作为分析引擎 2016Postgres中国用户大会 支持外部扩展已插件形式管理 支持插件创建的语法 CREATE EXTENSION DROP EXTENSION Patch已提交社区 2016Postgres中国用户大会0 码力 | 26 页 | 1.13 MB | 1 年前3
Greenplum 介绍Greenplum 介绍 Greenplum 是全球领先的开源大数据平台,是能够提供包含实时处理、弹性扩容、混合负载、云 原生和集成数据分析等强大功能的大数据引擎。 著名分析机构 Gartner 2019 年报告中,在经典数据分析领域 Greenplum 全球排名第三,实时分 析领域全球排名并列第四。Greenplum 是两个领域中排名前十的产品中的唯一一款开源产品。0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum分布式事务和两阶段提交协议数据库管理系统组成图 Hector Garcia-Molina /Jeffrey D.Ullman/Jennifer Widom《数据库系统实现》 查询编译器/ 优化器 事务管理器 DDL编译器 执行引擎 日志和恢复 并发控制 索引/文件/ 记录管理器 缓冲区管理器 缓冲区 锁表 存储管理器 存储 查询计划 对索引、文件和 记录的请求 页命令 事务命令 查询、更新 用户/ 应用0 码力 | 42 页 | 2.12 MB | 1 年前3
共 12 条
- 1
- 2













