 Pivotal Greenplum 5.0 - 开源MPP 数据库的不二之选开源 MPP 数据库的不二之选: Pivotal Greenplum 5.0 姚延栋 yyao@pivotal.io 开放源代码 SQL 企业级数据库 生态系统 MPP 高速数据加载 多态存储 表‘SALES’ 列存储 行存储 1月 一年前 二年前 外部表 12月 11月 4月0 码力 | 18 页 | 913.39 KB | 1 年前3 Pivotal Greenplum 5.0 - 开源MPP 数据库的不二之选开源 MPP 数据库的不二之选: Pivotal Greenplum 5.0 姚延栋 yyao@pivotal.io 开放源代码 SQL 企业级数据库 生态系统 MPP 高速数据加载 多态存储 表‘SALES’ 列存储 行存储 1月 一年前 二年前 外部表 12月 11月 4月0 码力 | 18 页 | 913.39 KB | 1 年前3
 Greenplum Database 管理员指南 6.2.1......................................................................................... - 19 - 第二章:分布式数据库概念 ......................................................................................... Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 21 - 第二章:分布式数据库概念 GP 是一个分布式数据库集群系统。这就意味着在物理上,数据是存储在多个数据 库上的(称为 Instance)。这些独立的数据库通过网络进行通信(称为内联网络)。分 布式 关键字并跟随如下的选项来实现:  某天或者某个时间的访问限制(不需要 BETWEEN 关键字),例如:周二不允许登录。  一个有开始时间和结束时间的访问限制(需要 BETWEEN AND),例如:周二下午 10 点到周三上午 8 点不允许登录。 还可以指定多个限制,例如:周二的任何时间不允许登录并且周五的下午 3 点到 5 点不允许登录。 指明日期和时间 有两种方法指明哪一天。使用0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1......................................................................................... - 19 - 第二章:分布式数据库概念 ......................................................................................... Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 21 - 第二章:分布式数据库概念 GP 是一个分布式数据库集群系统。这就意味着在物理上,数据是存储在多个数据 库上的(称为 Instance)。这些独立的数据库通过网络进行通信(称为内联网络)。分 布式 关键字并跟随如下的选项来实现:  某天或者某个时间的访问限制(不需要 BETWEEN 关键字),例如:周二不允许登录。  一个有开始时间和结束时间的访问限制(需要 BETWEEN AND),例如:周二下午 10 点到周三上午 8 点不允许登录。 还可以指定多个限制,例如:周二的任何时间不允许登录并且周五的下午 3 点到 5 点不允许登录。 指明日期和时间 有两种方法指明哪一天。使用0 码力 | 416 页 | 6.08 MB | 1 年前3
 Pivotal HVR meetup 20190816Compare Products 天天拍车是国内领先的二手车竞拍平台,现有核心业务是二手车线上 竞拍。同时,天天拍车还提供上门检测、线上竞拍、包办手续等一站 式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时,天天拍车也正在布局二手车金融、二手车保卖等创新业务。截 至目前,天天拍车已在全国超过50个多城市设立线下交易服务中心。 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 14 Compare Products Products ➢ 支持全量同步,但增量同步延时,数据量越大,延时更久。 ➢ JDBC驱动强依赖。 ➢ 版本更新不及时,对GreenPlum新版本无法持续性支持,不稳定。 ➢ 需开发人员支持,二次开发或脚本支持,开发时间成本和人力成本高。 ➢ 支持数据库版本少,无法支持跨多版本的Oracle、MySQL、PostgresSQL、SQL Server等 ➢ 断点续传不支持 ➢ 大量数据同步的情况下,同步组件效率低0 码力 | 31 页 | 2.19 MB | 1 年前3 Pivotal HVR meetup 20190816Compare Products 天天拍车是国内领先的二手车竞拍平台,现有核心业务是二手车线上 竞拍。同时,天天拍车还提供上门检测、线上竞拍、包办手续等一站 式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时,天天拍车也正在布局二手车金融、二手车保卖等创新业务。截 至目前,天天拍车已在全国超过50个多城市设立线下交易服务中心。 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 14 Compare Products Products ➢ 支持全量同步,但增量同步延时,数据量越大,延时更久。 ➢ JDBC驱动强依赖。 ➢ 版本更新不及时,对GreenPlum新版本无法持续性支持,不稳定。 ➢ 需开发人员支持,二次开发或脚本支持,开发时间成本和人力成本高。 ➢ 支持数据库版本少,无法支持跨多版本的Oracle、MySQL、PostgresSQL、SQL Server等 ➢ 断点续传不支持 ➢ 大量数据同步的情况下,同步组件效率低0 码力 | 31 页 | 2.19 MB | 1 年前3
 并行不悖- OLAP 在互联网公司的实践与思考1 并行不悖 – OLAP 在互联网公司的实践与思考 赵飞祥 2 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 10 greenplum体系架构 postgresql体系结构 11 无共享MPP Ø 多态存储 Ø 高效数据加载 (gpfdist+外部表,每小时4TB+) Ø 分布分区 Ø 数据压缩 Ø 外部访问 15 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 16 Greenplum现状说明 Greenplum集群现状概述0 码力 | 43 页 | 9.66 MB | 1 年前3 并行不悖- OLAP 在互联网公司的实践与思考1 并行不悖 – OLAP 在互联网公司的实践与思考 赵飞祥 2 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 10 greenplum体系架构 postgresql体系结构 11 无共享MPP Ø 多态存储 Ø 高效数据加载 (gpfdist+外部表,每小时4TB+) Ø 分布分区 Ø 数据压缩 Ø 外部访问 15 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 16 Greenplum现状说明 Greenplum集群现状概述0 码力 | 43 页 | 9.66 MB | 1 年前3
 Greenplum 新一代数据管理和数据分析解决方案• 巨人网络(征途游戏):财务分析、游戏在线分析 • 阿里巴巴:B2B、B2C、点击、在线分析 • 上海航空:航线结算分析 • 东方航空:航线结算分析 • 民族证券:数据中心,证券投资分析 • 北京第二外语大学:图书分析 • 中信银行:信用卡分析 • 深发展银行:数据中心兼ODS • 李宁公司:销售和库存分析 • 公安部:图像分析 • 国家海洋局:海洋数据采集与分析 • 上海安吉物流:收入&市场分析、客户经理跟踪分析 备注 报表一: 查询09年1月份数据 无法响应 查询 30秒 N 基于查询 语句 SQL1 报表一: 查询09年5月份数据 49秒 N 同上 报表二: 查询09年1月份数据 40秒 N 基于查询 语句 SQL2A和 SQL2B 报表二: 查询09年5月份数 32秒 N 同上 复杂查询 本项测试的目的是通过SQL查询检验Greenplum数据库引擎处理Query计算的响应 速度。 测 000 Rmb • Testing query scenario – 比较一:数据库客户端超过370万条记录的查询 – 比较二:通过BO报表工具查询2000万条销售结果报表 Oracle与Greenplum测试结果比较 比较一:370 万条记录直接 查询 比较二:2000 万条记录BO 报表查询 Oracle Greenplum 311秒 7156毫秒 Oracle Greenplum0 码力 | 45 页 | 2.07 MB | 1 年前3 Greenplum 新一代数据管理和数据分析解决方案• 巨人网络(征途游戏):财务分析、游戏在线分析 • 阿里巴巴:B2B、B2C、点击、在线分析 • 上海航空:航线结算分析 • 东方航空:航线结算分析 • 民族证券:数据中心,证券投资分析 • 北京第二外语大学:图书分析 • 中信银行:信用卡分析 • 深发展银行:数据中心兼ODS • 李宁公司:销售和库存分析 • 公安部:图像分析 • 国家海洋局:海洋数据采集与分析 • 上海安吉物流:收入&市场分析、客户经理跟踪分析 备注 报表一: 查询09年1月份数据 无法响应 查询 30秒 N 基于查询 语句 SQL1 报表一: 查询09年5月份数据 49秒 N 同上 报表二: 查询09年1月份数据 40秒 N 基于查询 语句 SQL2A和 SQL2B 报表二: 查询09年5月份数 32秒 N 同上 复杂查询 本项测试的目的是通过SQL查询检验Greenplum数据库引擎处理Query计算的响应 速度。 测 000 Rmb • Testing query scenario – 比较一:数据库客户端超过370万条记录的查询 – 比较二:通过BO报表工具查询2000万条销售结果报表 Oracle与Greenplum测试结果比较 比较一:370 万条记录直接 查询 比较二:2000 万条记录BO 报表查询 Oracle Greenplum 311秒 7156毫秒 Oracle Greenplum0 码力 | 45 页 | 2.07 MB | 1 年前3
 深度揭秘Greenplum开源数据库透明加密• 管理集群 • 数据备份恢复 需要登录到系统进行运维 • 可以访问数据库二进制文件 • 可以访问数据库数据文件 • 可以访问预写日志文件 潜在风险(二) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 运维模式 • 原厂服务,主机厂或者第三方运维 数据文件为明文二进制文件 • 直接通过Linux自带工具(strings, hexdump)访问 (Encrypted) Major key (Decrypted) Cached Data (Encrypted) Object key (Encrypted) Data (Encrypted) 系统域认证+二进制文件证书认证 工作流程 GPDB透明加密解析 KMS Master key Disk Memory Major key (Encrypted) Disk Memory/Client0 码力 | 48 页 | 10.19 MB | 1 年前3 深度揭秘Greenplum开源数据库透明加密• 管理集群 • 数据备份恢复 需要登录到系统进行运维 • 可以访问数据库二进制文件 • 可以访问数据库数据文件 • 可以访问预写日志文件 潜在风险(二) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 运维模式 • 原厂服务,主机厂或者第三方运维 数据文件为明文二进制文件 • 直接通过Linux自带工具(strings, hexdump)访问 (Encrypted) Major key (Decrypted) Cached Data (Encrypted) Object key (Encrypted) Data (Encrypted) 系统域认证+二进制文件证书认证 工作流程 GPDB透明加密解析 KMS Master key Disk Memory Major key (Encrypted) Disk Memory/Client0 码力 | 48 页 | 10.19 MB | 1 年前3
 Greenplum 排序算法7 9 8 7 7 9 6 3 2 1 分治法 9 快速排序 ● 快速排序算法: 10 堆排序是最常用的排序算法,由J.Williams在1964年发明。 ● 堆是一种近似完全二叉树的结构,最大值堆要求每个子节点的键值总是小于父 节点。最小值堆要求每个子节点的键值总是大于父节点。 堆排序算法 ● 步骤1:建立最大值堆,最大元素在堆顶 ● 步骤2:重复将堆顶元组移除并插入到排序数组,更新堆使其保持堆的性质 堆排序 1 2 3 5 6 8 9 5 9 2 1 3 6 8 20 ● 堆排序算法 堆排序 21 ● 归并排序分为两个阶段,阶段一是分割阶段,将原始待排序数据分成若干个顺 串。阶段二是合并阶段,将所有小顺串合并成一个包含所有数据的大顺串 外排序之归并排序 1 7 4 8 1 7 4 8 1 4 7 8 待排序数据 分割阶段 合并阶段 22 ● 问题一:分割阶段只需 入堆尾,并将堆的大小减1。 ● 5. 重复第2步,直至堆大小变为0。 ● 6. 顺串生成完毕。将堆大小重置为N,并重新建堆。重复第2步,开始生成下一 个顺串。 替换选择算法 25 ● 问题二:合并阶段假设存在N个输入缓冲区,如何高效的比较N个输入缓冲区的 最小值,并输出到输出缓冲区? 归并排序的三个问题 26 ● 假设顺串(长度为L)分布在K个文件中,顺串合并时需要K个输入缓冲区和1个输0 码力 | 52 页 | 2.05 MB | 1 年前3 Greenplum 排序算法7 9 8 7 7 9 6 3 2 1 分治法 9 快速排序 ● 快速排序算法: 10 堆排序是最常用的排序算法,由J.Williams在1964年发明。 ● 堆是一种近似完全二叉树的结构,最大值堆要求每个子节点的键值总是小于父 节点。最小值堆要求每个子节点的键值总是大于父节点。 堆排序算法 ● 步骤1:建立最大值堆,最大元素在堆顶 ● 步骤2:重复将堆顶元组移除并插入到排序数组,更新堆使其保持堆的性质 堆排序 1 2 3 5 6 8 9 5 9 2 1 3 6 8 20 ● 堆排序算法 堆排序 21 ● 归并排序分为两个阶段,阶段一是分割阶段,将原始待排序数据分成若干个顺 串。阶段二是合并阶段,将所有小顺串合并成一个包含所有数据的大顺串 外排序之归并排序 1 7 4 8 1 7 4 8 1 4 7 8 待排序数据 分割阶段 合并阶段 22 ● 问题一:分割阶段只需 入堆尾,并将堆的大小减1。 ● 5. 重复第2步,直至堆大小变为0。 ● 6. 顺串生成完毕。将堆大小重置为N,并重新建堆。重复第2步,开始生成下一 个顺串。 替换选择算法 25 ● 问题二:合并阶段假设存在N个输入缓冲区,如何高效的比较N个输入缓冲区的 最小值,并输出到输出缓冲区? 归并排序的三个问题 26 ● 假设顺串(长度为L)分布在K个文件中,顺串合并时需要K个输入缓冲区和1个输0 码力 | 52 页 | 2.05 MB | 1 年前3
 Greenplum 精粹文集总之,相信沿着开放、开源、云计算的路线继续前行,Greenplum MPP 数据库在新的时代将保持旺盛的生命力,继续高速发展。 Big Date2.indd 19 16-11-22 下午3:38 20 二、Greenplum 背后的帝国 在 Pivotal 中国的发展历史上, 有一个产品名字必须被铭记, 那 就 是 今 天 在 中 国 Massively Parallel Processing 大规模并行 ,尤其是大机 构的大模型更为明显。 第一次扩容是从 50 节点到 74 节点,完成 30TB 业务数据的导出、传输、 导入,以及 70TB 左右的索引数据创建,实际停机时间大约 3 天左右。 第二次扩容则到了上百节点。考虑到升级操作的可控性并缩短升级和 扩容时间,仍然采用新初始化集群的方案操作,在同一集群中初始化 了一个新数据库,将数据从旧库导出后,再导入新库。该方案在 2 天 之内完成 57TB 路 6 核以上(主频 2G HZ 以上),1 块 RAID 卡(单块 RAID 卡的 cache 大小 1GB 以上,并带有掉电保护功能 )。 ·ETL 服务器最好和 Greenplum 接入相同的二层交换机,如果跨交 换机,确保网络不存在性能瓶颈。 ·ETL 服务器网卡尽量选用万兆网卡,某香港航空公司曾抱怨 Greenplum 加载性能缓慢,结果发现加载时把所有 ETL 服务器的 千兆网卡都打满了。0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集总之,相信沿着开放、开源、云计算的路线继续前行,Greenplum MPP 数据库在新的时代将保持旺盛的生命力,继续高速发展。 Big Date2.indd 19 16-11-22 下午3:38 20 二、Greenplum 背后的帝国 在 Pivotal 中国的发展历史上, 有一个产品名字必须被铭记, 那 就 是 今 天 在 中 国 Massively Parallel Processing 大规模并行 ,尤其是大机 构的大模型更为明显。 第一次扩容是从 50 节点到 74 节点,完成 30TB 业务数据的导出、传输、 导入,以及 70TB 左右的索引数据创建,实际停机时间大约 3 天左右。 第二次扩容则到了上百节点。考虑到升级操作的可控性并缩短升级和 扩容时间,仍然采用新初始化集群的方案操作,在同一集群中初始化 了一个新数据库,将数据从旧库导出后,再导入新库。该方案在 2 天 之内完成 57TB 路 6 核以上(主频 2G HZ 以上),1 块 RAID 卡(单块 RAID 卡的 cache 大小 1GB 以上,并带有掉电保护功能 )。 ·ETL 服务器最好和 Greenplum 接入相同的二层交换机,如果跨交 换机,确保网络不存在性能瓶颈。 ·ETL 服务器网卡尽量选用万兆网卡,某香港航空公司曾抱怨 Greenplum 加载性能缓慢,结果发现加载时把所有 ETL 服务器的 千兆网卡都打满了。0 码力 | 64 页 | 2.73 MB | 1 年前3
 Pivotal Greenplum 最佳实践分享选用分布键同时考虑数据平均分布(一个例子,日志号不是最好的分布键,大量的空值导致资料倾斜) 物理模型经验分享(续) 分区表使用: • 不建议使用二级分区,二级分区不便于管理,而且Parser效率较低; • 二级分区可以用一级分区+Bitmap方式替代,例如按照“发生日期”做分区,然后在机构字段上将bitmap索引 • 对于1亿条记录以下的表不分区(对于小系统,该阀值适当调低)0 码力 | 41 页 | 1.42 MB | 1 年前3 Pivotal Greenplum 最佳实践分享选用分布键同时考虑数据平均分布(一个例子,日志号不是最好的分布键,大量的空值导致资料倾斜) 物理模型经验分享(续) 分区表使用: • 不建议使用二级分区,二级分区不便于管理,而且Parser效率较低; • 二级分区可以用一级分区+Bitmap方式替代,例如按照“发生日期”做分区,然后在机构字段上将bitmap索引 • 对于1亿条记录以下的表不分区(对于小系统,该阀值适当调低)0 码力 | 41 页 | 1.42 MB | 1 年前3
 Greenplum数据库架构分析及5.x新功能分享(1- 9), quicklz, delta, RLE  访问多列时速度快  支持高效更新和删除  AO 主要为插入而优化 表‘SALES’ 11月 列存储 行存储 7月 一年前 二年前 外部表  历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中  无缝查询所有数据  Text, CSV, Binary, Avro, Parquet 格式 6月 5月0 码力 | 44 页 | 8.35 MB | 1 年前3 Greenplum数据库架构分析及5.x新功能分享(1- 9), quicklz, delta, RLE  访问多列时速度快  支持高效更新和删除  AO 主要为插入而优化 表‘SALES’ 11月 列存储 行存储 7月 一年前 二年前 外部表  历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中  无缝查询所有数据  Text, CSV, Binary, Avro, Parquet 格式 6月 5月0 码力 | 44 页 | 8.35 MB | 1 年前3
共 14 条
- 1
- 2













