 Greenplum 精粹文集为什么选择 Postgreeql 做轮子 说到这,也许有同学会问,为什么 Greenplum 要基于 Postgresql? 这个问题大致引申出两个问题: 1) 为什么不从数据库底层进行重新设计研发? 所谓术业有专攻,就像制造跑车的不会亲自生产车轮一样,我们只 要专注在分布式技术中最核心的并行处理技术上面,协调我们下面 的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像 车轮一样,经 要 强 调 的 是:Greenplum 绝 不 仅 仅 只 是 简 单 的 等 同 于 “Postgresql+interconnect 并行调度 + 分布式事务两阶段提交”, Greenplum 还研发了非常多的高级数据分析管理功能和企业级管理模 块,如下这些功能都是 Postgresql 没有提供的: ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 64MB)。 ·MPP 采用 SQL 并行查询计划,Hadoop 采用 Mapreduce 框架。 基于以上不同,体现在效率、功能等特性方面也大不相同。 Big Date2.indd 12 16-11-22 下午3:38 Greenplum 精粹文集 13 1) 计算效率的比较 先说说 Mapreduce 技术。 Mapreduce 相比而言是一种较为蛮力计算方式(业内曾经甚至有 声音质疑0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集为什么选择 Postgreeql 做轮子 说到这,也许有同学会问,为什么 Greenplum 要基于 Postgresql? 这个问题大致引申出两个问题: 1) 为什么不从数据库底层进行重新设计研发? 所谓术业有专攻,就像制造跑车的不会亲自生产车轮一样,我们只 要专注在分布式技术中最核心的并行处理技术上面,协调我们下面 的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像 车轮一样,经 要 强 调 的 是:Greenplum 绝 不 仅 仅 只 是 简 单 的 等 同 于 “Postgresql+interconnect 并行调度 + 分布式事务两阶段提交”, Greenplum 还研发了非常多的高级数据分析管理功能和企业级管理模 块,如下这些功能都是 Postgresql 没有提供的: ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 64MB)。 ·MPP 采用 SQL 并行查询计划,Hadoop 采用 Mapreduce 框架。 基于以上不同,体现在效率、功能等特性方面也大不相同。 Big Date2.indd 12 16-11-22 下午3:38 Greenplum 精粹文集 13 1) 计算效率的比较 先说说 Mapreduce 技术。 Mapreduce 相比而言是一种较为蛮力计算方式(业内曾经甚至有 声音质疑0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum Database 管理员指南 6.2.1在国内建立了一个较大规模的研发团队,越来越多的承担更重要的研发任务,包括 PostgreSQL 的版本合并等,从而,可以为国内商业用户提供更专业和更优质的本地 化服务,用户遇到问题,反馈给专业技术支持人员,或者专业售后服务团队,他们会同 用户一起排查和解决问题,如果有需要,还会保持与研发的持续沟通,虽然以前也是这 种工作模式,但由于时区和语言文化等诸多差异,沟通链路较长,时间较久,研发的本 地化,使得沟通的效率大大提高。 Instance 所在主机配置的 Primary 越多,响应并发的能力越弱,但单个任务的 处理能力越强(这也不是绝对的,当 Primary 数量多到,即便运行单个任务时都会出 现资源争抢,可能运行的效率就会下降)。实际上,每个计算主机的 Primary 个数, 还与其他资源有关,如,磁盘性能,网络性能,内存容量。 内联网络:Interconnect Greenplum Database 对于打算用来做Table Join的Column来说,应该考虑选择相同的数据类型。如 果做Join的Column具有相同的数据类型(例如主键Primary Key与外键Foreign Key),其工作效率会更高。如果两者的数据类型不同,DB还需要将其中一个类型做转 换才可以做关联比较,这种开销是不必要的浪费。 设置 Table 和 Column 的约束 数据类型用来限0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1在国内建立了一个较大规模的研发团队,越来越多的承担更重要的研发任务,包括 PostgreSQL 的版本合并等,从而,可以为国内商业用户提供更专业和更优质的本地 化服务,用户遇到问题,反馈给专业技术支持人员,或者专业售后服务团队,他们会同 用户一起排查和解决问题,如果有需要,还会保持与研发的持续沟通,虽然以前也是这 种工作模式,但由于时区和语言文化等诸多差异,沟通链路较长,时间较久,研发的本 地化,使得沟通的效率大大提高。 Instance 所在主机配置的 Primary 越多,响应并发的能力越弱,但单个任务的 处理能力越强(这也不是绝对的,当 Primary 数量多到,即便运行单个任务时都会出 现资源争抢,可能运行的效率就会下降)。实际上,每个计算主机的 Primary 个数, 还与其他资源有关,如,磁盘性能,网络性能,内存容量。 内联网络:Interconnect Greenplum Database 对于打算用来做Table Join的Column来说,应该考虑选择相同的数据类型。如 果做Join的Column具有相同的数据类型(例如主键Primary Key与外键Foreign Key),其工作效率会更高。如果两者的数据类型不同,DB还需要将其中一个类型做转 换才可以做关联比较,这种开销是不必要的浪费。 设置 Table 和 Column 的约束 数据类型用来限0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum 介绍可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL 接口进行数据分析,大大降低了数据分 析的门槛;MADlib 内建于数据库内,使用 MPP 的优势,提高了分析的效率;MADlib 可 以在全量数据而不是抽样数据上进行分析,提高了精度。 ● 开放源代码且持续大力投入的平台: 2017 年 Pivotal 在 github 的开源贡献列表中全球排 名第四左右。 年,2008 年发布 Greenplum 数据库产品。2010 年 Greenplum 被 高端存储领域巨头 EMC 收购,同年 Greenplum 借助 EMC 中国卓越研发集团进入中国,并创建 Greenplum 中国研发团队。2014 年 Greenplum 从 EMC 独立出来创立 Pivotal,并获得通用电气、 福特汽车和微软的投资。2018 年 4 月 Pivotal 在纽约证券交易所上市,目前市值0 码力 | 3 页 | 220.42 KB | 1 年前3 Greenplum 介绍可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL 接口进行数据分析,大大降低了数据分 析的门槛;MADlib 内建于数据库内,使用 MPP 的优势,提高了分析的效率;MADlib 可 以在全量数据而不是抽样数据上进行分析,提高了精度。 ● 开放源代码且持续大力投入的平台: 2017 年 Pivotal 在 github 的开源贡献列表中全球排 名第四左右。 年,2008 年发布 Greenplum 数据库产品。2010 年 Greenplum 被 高端存储领域巨头 EMC 收购,同年 Greenplum 借助 EMC 中国卓越研发集团进入中国,并创建 Greenplum 中国研发团队。2014 年 Greenplum 从 EMC 独立出来创立 Pivotal,并获得通用电气、 福特汽车和微软的投资。2018 年 4 月 Pivotal 在纽约证券交易所上市,目前市值0 码力 | 3 页 | 220.42 KB | 1 年前3
 Greenplum机器学习⼯具集和案例2017.thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com bigint) AS ID) foo DISTRIBUTED BY (id); 2017.thegiac.com 2017.thegiac.com • 适合模型应用于数据子集的场景,并行执行效率非常高 • 如果节点间数据通讯,使用 适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 ●0 码力 | 58 页 | 1.97 MB | 1 年前3 Greenplum机器学习⼯具集和案例2017.thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com bigint) AS ID) foo DISTRIBUTED BY (id); 2017.thegiac.com 2017.thegiac.com • 适合模型应用于数据子集的场景,并行执行效率非常高 • 如果节点间数据通讯,使用 适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 ●0 码力 | 58 页 | 1.97 MB | 1 年前3
 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum能够独立于专用 硬件加速提供高性能的纯软件数据平台,无需专用硬件,另外一方面包括核心代码在内的全部开源,社区人员或客户 可最大化自由利用和借鉴 Greenplum 的优秀功能的同时,又可以反哺及影响总体产品研发方向,可以加快产品创新, 基于此 Greenplum 有适用于多种环境的使用及实践,非常契合如今中国本土客户越来越多样化的应用业务基础环境。 以开源创新替代专有分析环境 作为技术领先的成熟的商业产品,Greenplum 议,SIGMOD 和另外 两大数据库会议 VLDB、ICDE 构成了数据库领域的三个顶级会议,其论文录取率是很低的,平均录取率大约仅为 15%-17%,值得一提的是此论文主要由中国研发团队完成,也说明了中国研发团队实力处于世界一流水平。在论文 中 Greenplum 团队提出一种全新的全局死锁检测器来减少独占锁的使用,减少独占锁的使用可以极大的提高数据库 在高并发状态下的性能,这项技术已经在0 码力 | 17 页 | 2.04 MB | 1 年前3 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum能够独立于专用 硬件加速提供高性能的纯软件数据平台,无需专用硬件,另外一方面包括核心代码在内的全部开源,社区人员或客户 可最大化自由利用和借鉴 Greenplum 的优秀功能的同时,又可以反哺及影响总体产品研发方向,可以加快产品创新, 基于此 Greenplum 有适用于多种环境的使用及实践,非常契合如今中国本土客户越来越多样化的应用业务基础环境。 以开源创新替代专有分析环境 作为技术领先的成熟的商业产品,Greenplum 议,SIGMOD 和另外 两大数据库会议 VLDB、ICDE 构成了数据库领域的三个顶级会议,其论文录取率是很低的,平均录取率大约仅为 15%-17%,值得一提的是此论文主要由中国研发团队完成,也说明了中国研发团队实力处于世界一流水平。在论文 中 Greenplum 团队提出一种全新的全局死锁检测器来减少独占锁的使用,减少独占锁的使用可以极大的提高数据库 在高并发状态下的性能,这项技术已经在0 码力 | 17 页 | 2.04 MB | 1 年前3
 Greenplum数据库架构分析及5.x新功能分享Use Only 1 © Copyright 2013 Pivotal. All rights reserved. Greenplum 数据库架构分析及5.x 新功能分享 杨瑜 Pivotal中国研发中心 2 Pivotal Confidential–Inter nal Use Only 日程  Greenplum 数据库(GPDB)简介  Greenplum 数据库(GPDB)架构 标准,OLAP,JDBC/ODBC  支持ACID、分布式事务  分布式数据库:线性扩展,支持上百物理节点  企业级数据库:全球大客户超过 1000+ 安装集群  百万行源代码,超过10年的全球研发投入  开源数据库(greenplum.org),良性生态系统 5 Pivotal Confidential–Inter nal Use Only 5 © Copyright 2013 Pivotal0 码力 | 44 页 | 8.35 MB | 1 年前3 Greenplum数据库架构分析及5.x新功能分享Use Only 1 © Copyright 2013 Pivotal. All rights reserved. Greenplum 数据库架构分析及5.x 新功能分享 杨瑜 Pivotal中国研发中心 2 Pivotal Confidential–Inter nal Use Only 日程  Greenplum 数据库(GPDB)简介  Greenplum 数据库(GPDB)架构 标准,OLAP,JDBC/ODBC  支持ACID、分布式事务  分布式数据库:线性扩展,支持上百物理节点  企业级数据库:全球大客户超过 1000+ 安装集群  百万行源代码,超过10年的全球研发投入  开源数据库(greenplum.org),良性生态系统 5 Pivotal Confidential–Inter nal Use Only 5 © Copyright 2013 Pivotal0 码力 | 44 页 | 8.35 MB | 1 年前3
 基于 Greenplum 打造SaaS化电商服务平台基于GP打造SaaS化电商服务平台 聚水潭 秃鹰 赵坚密 2019.08.10 聚水潭成立于2014年1月,创始人兼CEO骆海东拥有超过二十年传统 及电商ERP的研发和实施部署经验,公司核心管理团队来自于阿里巴 巴、亚马逊、中国平安和麦包包等知名公司。 聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务, 快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经 发展成为以SaaS0 码力 | 7 页 | 547.94 KB | 1 年前3 基于 Greenplum 打造SaaS化电商服务平台基于GP打造SaaS化电商服务平台 聚水潭 秃鹰 赵坚密 2019.08.10 聚水潭成立于2014年1月,创始人兼CEO骆海东拥有超过二十年传统 及电商ERP的研发和实施部署经验,公司核心管理团队来自于阿里巴 巴、亚马逊、中国平安和麦包包等知名公司。 聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务, 快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经 发展成为以SaaS0 码力 | 7 页 | 547.94 KB | 1 年前3
 深度揭秘Greenplum开源数据库透明加密深度揭秘Greenplum开源数据库 透明加密 Greenplum 研发工程师 王淏舟 1. 我们所面临的问题 2. 基于pgcypto的数据加密方案 3. GPDB数据透明加密方案设计 4. GPDB数据透明加解密流程 5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署0 码力 | 48 页 | 10.19 MB | 1 年前3 深度揭秘Greenplum开源数据库透明加密深度揭秘Greenplum开源数据库 透明加密 Greenplum 研发工程师 王淏舟 1. 我们所面临的问题 2. 基于pgcypto的数据加密方案 3. GPDB数据透明加密方案设计 4. GPDB数据透明加解密流程 5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署0 码力 | 48 页 | 10.19 MB | 1 年前3
 Pivotal HVR meetup 20190816Data Replication. What is HVR? 4 Key Benefits of Using HVR for your Business 提升业务洞察力 关键业务连续性 提高效率 降低风险 5 Geographical Distribution Real-Time Analytics Data Lake Data Warehouse Cloud HVR 连续数据集成技术 、包办手续等一站 式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时, 对于增量备份可以支持准实时的同步也可以支持延时同步 ➢ 同步软件不会对源库造成负载上升的问题 ➢ 同步中断后能够记录中断点,在下次同步时可以自动从中断点开始继续同步数据 ➢ 能够提供对同步组件的监控 ➢ 操作简单,运维效率高 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 15 Compare Products 参考:https://mp.weixin0 码力 | 31 页 | 2.19 MB | 1 年前3 Pivotal HVR meetup 20190816Data Replication. What is HVR? 4 Key Benefits of Using HVR for your Business 提升业务洞察力 关键业务连续性 提高效率 降低风险 5 Geographical Distribution Real-Time Analytics Data Lake Data Warehouse Cloud HVR 连续数据集成技术 、包办手续等一站 式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时, 对于增量备份可以支持准实时的同步也可以支持延时同步 ➢ 同步软件不会对源库造成负载上升的问题 ➢ 同步中断后能够记录中断点,在下次同步时可以自动从中断点开始继续同步数据 ➢ 能够提供对同步组件的监控 ➢ 操作简单,运维效率高 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 15 Compare Products 参考:https://mp.weixin0 码力 | 31 页 | 2.19 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商INTO 表名 [ ( 字段 [, ...] ) ] { DEFAULT VALUES | VALUES ( { 表达式 | DEFAULT } [, ...] ) | ⼦查询 } 每次插⼊⼀条的效率会⽐较低、我们建议⼀次插⼊多条(2000-5000条)数据。如果要加载的数据量⽐较⼤的话、强烈建议使⽤copy⽅式加载或者我们下⾯介绍的⼏种⽅式加载。如果您的 数据已经在udw中,也可以通过insert INTO 表名 [ ( 字段 [, ...] ) ] { DEFAULT VALUES | VALUES ( { 表达式 | DEFAULT } [, ...] ) | ⼦查询 } 每次插⼊⼀条的效率会⽐较低、我们建议⼀次插⼊多条(500-5000条)数据。如果要加载的数据量⽐较⼤的话、强烈建议使⽤ copy ⽅式加载或者我们下⾯介绍的⼏种⽅式加载。如果您的 数据已经在 udw 中,也可以通过 存储⽅式不同,哈希之后的值会不⼀样,因⽽会分布到不同的节点上)。 5 导⼊数据 导⼊数据 可以参考上⾯的加载数据、我们提供丰富的数据导⼊⽅法,我们不建议使⽤ insert ⼀条条的导⼊数据、这个效率是⽐较低的。强烈建议⽤ copy 或者其他更⾼效的数据导⼊⽅式。 6 分区 分区 分区表主要⽤来存放⼤表,把⼤数据切⽚,便于查询,也便于数据库维护。分区创建时,每个分区会⾃带⼀个Check约束,来限定数据的范围。0 码力 | 206 页 | 5.35 MB | 1 年前3 Greenplum数据仓库UDW - UCloud中立云计算服务商INTO 表名 [ ( 字段 [, ...] ) ] { DEFAULT VALUES | VALUES ( { 表达式 | DEFAULT } [, ...] ) | ⼦查询 } 每次插⼊⼀条的效率会⽐较低、我们建议⼀次插⼊多条(2000-5000条)数据。如果要加载的数据量⽐较⼤的话、强烈建议使⽤copy⽅式加载或者我们下⾯介绍的⼏种⽅式加载。如果您的 数据已经在udw中,也可以通过insert INTO 表名 [ ( 字段 [, ...] ) ] { DEFAULT VALUES | VALUES ( { 表达式 | DEFAULT } [, ...] ) | ⼦查询 } 每次插⼊⼀条的效率会⽐较低、我们建议⼀次插⼊多条(500-5000条)数据。如果要加载的数据量⽐较⼤的话、强烈建议使⽤ copy ⽅式加载或者我们下⾯介绍的⼏种⽅式加载。如果您的 数据已经在 udw 中,也可以通过 存储⽅式不同,哈希之后的值会不⼀样,因⽽会分布到不同的节点上)。 5 导⼊数据 导⼊数据 可以参考上⾯的加载数据、我们提供丰富的数据导⼊⽅法,我们不建议使⽤ insert ⼀条条的导⼊数据、这个效率是⽐较低的。强烈建议⽤ copy 或者其他更⾼效的数据导⼊⽅式。 6 分区 分区 分区表主要⽤来存放⼤表,把⼤数据切⽚,便于查询,也便于数据库维护。分区创建时,每个分区会⾃带⼀个Check约束,来限定数据的范围。0 码力 | 206 页 | 5.35 MB | 1 年前3
共 15 条
- 1
- 2













