Greenplum介绍Greenplum介绍 唐成 - 2011.02.17 汇 报 提 纲 Greenplum VS hadoop Greenplum架构 Greenplum的高可用方案 GP分布式数据库功能介绍 理解GP的查询处理 Greenplum VS hadoop 比较项 Greenplum Hadoop+hive 软件性质 商业软件 有较多的bug。 比较稳定。 Greenplum架构图 Segment Host Segment Host Segment Host Segment Host 高 速 以 太 网 交 换 机 Master Host Lan Client Host Greenplum架构: Master介绍 Master服务器是外面用户访问greenplum的入口。用户 都是连接 的。 Greenplum数据库是基于PostgreSQL数据库的,所以 可以用PostgreSQL数据库的工具来连接Greenplum数 据库,如java程序可以使用PostgreSQL的jdbc驱动来 访问Greenplum数据库,也可以使用psql工具或 pgadminII来管理Greenplum。 Greenplum架构: Master介绍 Greenplum的Master数据库也是一个被改造过的0 码力 | 38 页 | 655.38 KB | 1 年前3
Greenplum 介绍Greenplum 介绍 Greenplum 是全球领先的开源大数据平台,是能够提供包含实时处理、弹性扩容、混合负载、云 原生和集成数据分析等强大功能的大数据引擎。 著名分析机构 Gartner 2019 年报告中,在经典数据分析领域 Greenplum 全球排名第三,实时分 析领域全球排名并列第四。Greenplum 是两个领域中排名前十的产品中的唯一一款开源产品。 Greenplum 基于 MPP(大规模并行处理)架构构建,具有良好的弹性和线性扩展能力,并内置 并行存储、并行通讯、并行计算和优化技术。同时,Greenplum 还兼容 SQL 标准,具备强大、 高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的混合负载,从而帮助客户真正打通业务-数据-洞见-业务的闭环。 目前,Greenplum 已经为国内外各行各业客户所广泛使用,支撑着全球各大行业的核心生产系统, 其涉及领域涵盖金融、保险、证券、通信、航空、物流、零售、媒体、政府、医疗、制造、能源 等。其中,国际客户包括摩根斯坦利、摩根大通、美国国家税务局、美联储、三星、戴尔、福特、 爱立信等,0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum 5.0 and RoadmapPostgres Conference China 2016 中国用户大会 Postgres Conference China 2016 中国用户大会 Greenplum 5.0 and Roadmap Brian Lu Pivotal 2016Postgres中国用户大会 Postgres Conference China 2016 中国用户大会 Safe Harbor • “Any 中国用户大会 Greenplum is Growing Steady • Greenplum is Growing Steady – Operating in 34 countries globally – Customer count and revenue growing – Pivotal engineering investment growing – 9 Greenplum Database contribution growing – 1417 commits to the github repo of Greenplum in 2016 – 111 unique contributors on github repo of Greenplum in 2016 – Major Greenplum 5.0 release planned early 2017 2016Postgres中国用户大会0 码力 | 27 页 | 2.66 MB | 1 年前3
Greenplum 架构概览Greenplum 架构概览 基本拓扑结构 如上图,我们可以认为 Greenplum(后简称 GP) 就是很多个 PostgreSQL 实例所组成的集群。GP 对外提供统⼀的数据接⼝,并帮助⽤户⾃动完成数据分⽚、并⾏ 查询与聚合等诸多分布式数据库功能 GP 是⼀种典型的 Master-Segment 架构,⼀个 GP 集群通常由⼀个 Master 节点、⼀个 Standby Master0 码力 | 1 页 | 734.79 KB | 1 年前3
Greenplum 精粹文集indd 3 16/11/23 下午5:46 Big Date 1123.indd 4 16/11/23 下午5:46 Greenplum 精粹文集 1 一、Greenplum 的前生今世 1. Greenplum 的起源 Greenplum 最早是在 10 多年前(大约在 2002 年)出现,基本上 和 Hadoop 是同一时期(Hadoop 约是 2004 年前后出现的,早期的 是需要软件来实现,Greenplum 正是在这一背景下产生的,借助于分 布式计算思想,Greenplum 实现了基于数据库的分布式数据存储和并 行计算(GoogleMapReduce 实现的是基于文件的分布式数据存储和 计算,我们会在后面比较这两种方法的优劣性)。 话说当年 Greenplum(当时还是一个 Startup 公司,创始人家门口有 一棵青梅 ——greenplum,因此而得名)召集了十几位业界大咖(据 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 排序算法Greenplum中文社区 https://cn.greenplum.org 博文 · 资料 · 文档 · 项目 Greenplum内核揭秘之排序算法 5 ● 内排序算法 ● 外排序算法 ● Greenplum TupleSort ● 排序在Greenplum中的应用 Outline 6 ● 冒泡排序 ● 插入排序 ● 快速排序 ● 堆排序 ● 基数排序 内排序算法 38 TupleSort 39 ● 多键排序是Greenplum特有的一种排序方式,它的优势主要是对具有相同前缀 的字符串进行高效排序。 ● 在现实世界里,拥有相同前缀的字符串是非常常见的,比如URL都以https://为 前缀,每个具体站点也拥有自己的前缀,比如Greenplum站点的每篇文章都以 https://cn.greenplum.org/为前缀。对这些字符串进行排序的时候,多键排序优 Motion 排序在Greenplum中的应用 43 ● Greenplum的聚集节点使用两种聚集方式:哈希聚集和分组聚集。 ● 分组聚集应用了排序的思想,如果数据基于分组键有序,那么聚集可以拆解为 若干个朴素聚集的组合。 ● SELECT avg(score) FROM student GROUP BY grade; 分组聚集 44 ● Greenplum连接算法包括:嵌套循环连接,哈希连接和归并连接。0 码力 | 52 页 | 2.05 MB | 1 年前3
Greenplum备份恢复浅析年象行中国(杭州 站)第一期 Greenplum备份恢复浅析 姓名:张文杰 邮箱:zhuodao.zwj@alibaba-inc.com 公司:阿里云 2017 年象行中国(杭州 站)第一期 Greenplum数据备份恢复: 1. 数据量较大 2. 不能完全使用Xlog日志备份 3. 需要保证数据完整性和一致性 2017 年象行中国(杭州 站)第一期 Greenplum提供了: 1. 非并行备份和恢复:0 码力 | 17 页 | 1.29 MB | 1 年前3
Pivotal Greenplum 最佳实践分享Pivotal Greenplum 最佳实践分享 陈淼 Pivotal大中华区大数据资深架构师 目录 Greenplum运维常见问题 Greenplum运维常用命令 Greenplum日常检查和故障处理 Greenplum项目经验分享 目录 Greenplum运维常见问题 Greenplum运维常见问题 Greenplum运维常用命令 Greenplum日常检查和故障处理 Greenplum项目经验分享 内核参数 通常情况下,内核参数按照GPDB安装手册配置,如需要增加连接数支持,以下参数需要增大 kernel.shmmax = 1000000000 kernel.sem = 250 512000 100 2048 Redhat 6 gid;--pg_prepared_xacts SQL互锁情况 目录 Greenplum运维常见问题 Greenplum运维常用命令 Greenplum日常检查和故障处理 Greenplum项目经验分享 Admin常用命令 数据库启动:gpstart 常用可选参数:-a:直接启动,不提示终端使用者输入确0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum上云与优化张广舟(明虚) 阿里云高级专家 Greenplum上云与优化 — ApsaraDB for Greenplum介绍 2016Postgres中国用户大会 目 录 content ApsaraDB for GP的定位 ApsaraDB for GP的内核优化 未来的规划 2016Postgres中国用户大会 ApsaraDB for GP的定位 2016Postgres中国用户大会 >5-30倍的性能优势 2016Postgres中国用户大会 ApsaraDB for GP vs. AWS Redshift? “有史以来卖的最好的云服务” 对比项目 ApsaraDB for Greenplum(SSD/SATA) AWS RedShift 外部表 支持OSS外部表 无此设计 地理信息支持 支持(自带PostGIS) 不支持 分区表支持 支持 不支持 数据类型 支持所有PostgreSQL0 码力 | 26 页 | 1.13 MB | 1 年前3
Greenplum 编译安装和调试Greenplum 编译安装和调试 本文先介绍如何从源代码编译安装Greenplum、初始化Greenplum集群。然后介绍SQL在 Greenplum中的典型执行路径,最后介绍一些调试技巧。 源代码使用 Greenplum 开源社区最新源代码 6X_STABLE 分支: https://github.com/greenplum-db/gpdb,内核代码基于 PostgreSQL 9.4。合并到 PostgreSQL 9.5 的工作也已经开始,有关最新工作 进展请参见:https://github.com/greenplum-db/gpdb-postgres-merge。 1. 从源代码编译 Greenplum Greenplum 目前官方支持 Redhat/Centos/SuSE/Ubuntu 等Linux系统。大量开发人员包括我自己 使用Mac系统,但是不在官方支持列表中。 重启过程中按下 command+R 进入恢复模式 3. 从 Utilities 菜单选择 Terminal 4. 执行 csrutil disable 5. 重启操作系统 // 安装Greenplum管理脚本依赖的 Python 包 $ wget https://bootstrap.pypa.io/get-pip.py $ sudo python get-pip.py $ sudo pip0 码力 | 15 页 | 2.07 MB | 1 年前3
共 59 条
- 1
- 2
- 3
- 4
- 5
- 6













