 Pivotal Greenplum 5: 新一代数据平台Pivotal Greenplum 5: 新一代数据平台 开源、支持多种云的高级分析数据平台 作者:Keaton Adams、 Dan Baskette、 Cesar Rojas pivotal.io/cn 白皮书 2 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 目录 关于本白皮书 .. ..........................................................................3 Pivotal Greenplum 5:新一代数据平台 .........................................................................................3 以开源创新替代专有分析环境 ...9 pivotal.io/cn 白皮书 3 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 关于本白皮书 Pivotal 最近推出全球第一个开源、支持多云的高级分析数据平台——Pivotal Greenplum 5。本白皮书着眼介绍 Greenplum 5 的核心特征,及多年来围绕该平台发展出的生态系统。0 码力 | 9 页 | 690.33 KB | 1 年前3 Pivotal Greenplum 5: 新一代数据平台Pivotal Greenplum 5: 新一代数据平台 开源、支持多种云的高级分析数据平台 作者:Keaton Adams、 Dan Baskette、 Cesar Rojas pivotal.io/cn 白皮书 2 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 目录 关于本白皮书 .. ..........................................................................3 Pivotal Greenplum 5:新一代数据平台 .........................................................................................3 以开源创新替代专有分析环境 ...9 pivotal.io/cn 白皮书 3 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 关于本白皮书 Pivotal 最近推出全球第一个开源、支持多云的高级分析数据平台——Pivotal Greenplum 5。本白皮书着眼介绍 Greenplum 5 的核心特征,及多年来围绕该平台发展出的生态系统。0 码力 | 9 页 | 690.33 KB | 1 年前3
 Greenplum 新一代数据管理和数据分析解决方案1 新一代数据管理和数据分析 解决方案 关于Greenplum公司 • Greenplum是一家数据库软件公司,在数据处理和 BI/DW领域,提供容量 最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥,加利福尼亚州,美国,成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站: www.greenplum greenplum.com www.greenplum-china.com Greenplum:简介 Greenplum数据引擎软件为新一代数 据仓库所需的大规模数据和复杂查询功 能所设计 3 推动数据依赖型企业的发展 全球各地的一些Greenplum客户 4 亚太地区 欧洲、中东、非洲 北美 中国的客户 5 金融 交通 互联网 其它 Teradata Netezza Oracle 专有,昂贵 不可扩展 针对OLTP进行了优化 主流 10 数据库行业所面临的挑战 0 1 2 3 4 5 6 7 8 9 10 1995 2000 2005 2010 新一代数据库的要求 传统数据库的要求 今天的数据库供应商 网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率 数据库管理系统(DBMS)的 规模/容量 11 需要采用一种新的方法0 码力 | 45 页 | 2.07 MB | 1 年前3 Greenplum 新一代数据管理和数据分析解决方案1 新一代数据管理和数据分析 解决方案 关于Greenplum公司 • Greenplum是一家数据库软件公司,在数据处理和 BI/DW领域,提供容量 最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥,加利福尼亚州,美国,成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站: www.greenplum greenplum.com www.greenplum-china.com Greenplum:简介 Greenplum数据引擎软件为新一代数 据仓库所需的大规模数据和复杂查询功 能所设计 3 推动数据依赖型企业的发展 全球各地的一些Greenplum客户 4 亚太地区 欧洲、中东、非洲 北美 中国的客户 5 金融 交通 互联网 其它 Teradata Netezza Oracle 专有,昂贵 不可扩展 针对OLTP进行了优化 主流 10 数据库行业所面临的挑战 0 1 2 3 4 5 6 7 8 9 10 1995 2000 2005 2010 新一代数据库的要求 传统数据库的要求 今天的数据库供应商 网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率 数据库管理系统(DBMS)的 规模/容量 11 需要采用一种新的方法0 码力 | 45 页 | 2.07 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商c template1 (切换到template1数据库) DROP DATABASE product; 3、模式管理 、模式管理 数据库模式(schema)是包含了⼀系列数据库对象(表,数据类型,⾃定义函数)集合的命名容器。⼀个数据库可以有多个模式。不同模式不共享命名空间。public 模式是在创建数据库之后就 会默认创建的,每个⽤⼾都有权限在这个 schema 创建对象,如果不指定 schema 信息: 数据类型 表约束 数据分布策略 表存储模型 分区策略 外部表:udwfile、udwhdfs 下⾯分别根据上⾯的可选信息对表格设计进⾏分析。 4.1 数据类型 数据类型 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 82/206 udw 的数据类型和 postgresql 基本⼀致,在选择数据类型的时候应该 基本⼀致,在选择数据类型的时候应该尽可能占⽤空间⼩,同时能够保证存储所有可能的数值并且最合理地表达数据。 使⽤字符型数据类型保存字符串,⽇期或者⽇期时间戳类型保存⽇期类型,数值类型来保存数值。 使⽤ VARCHAR 或者 TEXT 来保存⽂本类数据。不推荐使⽤ CHAR 类型保存⽂本类型。VARCHAR 或 TEXT 类型对于数据末尾的空⽩字符将原样保存和处理,但是 CHAR 类型不能满⾜ 这个需求。请参考 CREATE TABLE0 码力 | 206 页 | 5.35 MB | 1 年前3 Greenplum数据仓库UDW - UCloud中立云计算服务商c template1 (切换到template1数据库) DROP DATABASE product; 3、模式管理 、模式管理 数据库模式(schema)是包含了⼀系列数据库对象(表,数据类型,⾃定义函数)集合的命名容器。⼀个数据库可以有多个模式。不同模式不共享命名空间。public 模式是在创建数据库之后就 会默认创建的,每个⽤⼾都有权限在这个 schema 创建对象,如果不指定 schema 信息: 数据类型 表约束 数据分布策略 表存储模型 分区策略 外部表:udwfile、udwhdfs 下⾯分别根据上⾯的可选信息对表格设计进⾏分析。 4.1 数据类型 数据类型 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 82/206 udw 的数据类型和 postgresql 基本⼀致,在选择数据类型的时候应该 基本⼀致,在选择数据类型的时候应该尽可能占⽤空间⼩,同时能够保证存储所有可能的数值并且最合理地表达数据。 使⽤字符型数据类型保存字符串,⽇期或者⽇期时间戳类型保存⽇期类型,数值类型来保存数值。 使⽤ VARCHAR 或者 TEXT 来保存⽂本类数据。不推荐使⽤ CHAR 类型保存⽂本类型。VARCHAR 或 TEXT 类型对于数据末尾的空⽩字符将原样保存和处理,但是 CHAR 类型不能满⾜ 这个需求。请参考 CREATE TABLE0 码力 | 206 页 | 5.35 MB | 1 年前3
 Greenplum Database 管理员指南 6.2.1........................................................................................ - 392 - 数据类型 ................................................................................................. 创建表 CREATE TABLE命令用于创建一张新的Table和定义其结构。在创建Table时, 通常需要定义如下几个方面的信息:  都有哪些字段(Column)以及对应的数据类型。  Table或者Column的约束(Constraint),其限定了Table或者Column可以储 存什么样的数据。  Table的分布策略,其决定了Table的Data如何被分割存储在GP的各个 Instance上。  Table在Disk上的存储方式。例如压缩、按列存储等选项。  大表的分区策略(Partition Table)。 选择 Column 的数据类型 Column的Data Type决定了其可以储存什么类型的数据值。通常应该考虑使用最 小的空间储存数据,不是为了节省空间,重要的是,要考虑Data Type对数据范围的 约束。例如0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1........................................................................................ - 392 - 数据类型 ................................................................................................. 创建表 CREATE TABLE命令用于创建一张新的Table和定义其结构。在创建Table时, 通常需要定义如下几个方面的信息:  都有哪些字段(Column)以及对应的数据类型。  Table或者Column的约束(Constraint),其限定了Table或者Column可以储 存什么样的数据。  Table的分布策略,其决定了Table的Data如何被分割存储在GP的各个 Instance上。  Table在Disk上的存储方式。例如压缩、按列存储等选项。  大表的分区策略(Partition Table)。 选择 Column 的数据类型 Column的Data Type决定了其可以储存什么类型的数据值。通常应该考虑使用最 小的空间储存数据,不是为了节省空间,重要的是,要考虑Data Type对数据范围的 约束。例如0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum上云与优化ApsaraDB for Greenplum(SSD/SATA) AWS RedShift 外部表 支持OSS外部表 无此设计 地理信息支持 支持(自带PostGIS) 不支持 分区表支持 支持 不支持 数据类型 支持所有PostgreSQL 9.0以下类型 支持11个PostgreSQL类型 横向扩容 支持 支持,需要停机(数分钟) 索引 支持(B-tree、Bitmap) 不支持 2016Postgres中国用户大会 目前支持的插件 MADLib PL/Java Pgcrypto Fuzzstringmatch PostGIS Orca hll 2016Postgres中国用户大会 完善的JSON数据类型支持 Create table users( id int, info json) Select info->name from users 2016Postgres中国用户大会 用户权限定制0 码力 | 26 页 | 1.13 MB | 1 年前3 Greenplum上云与优化ApsaraDB for Greenplum(SSD/SATA) AWS RedShift 外部表 支持OSS外部表 无此设计 地理信息支持 支持(自带PostGIS) 不支持 分区表支持 支持 不支持 数据类型 支持所有PostgreSQL 9.0以下类型 支持11个PostgreSQL类型 横向扩容 支持 支持,需要停机(数分钟) 索引 支持(B-tree、Bitmap) 不支持 2016Postgres中国用户大会 目前支持的插件 MADLib PL/Java Pgcrypto Fuzzstringmatch PostGIS Orca hll 2016Postgres中国用户大会 完善的JSON数据类型支持 Create table users( id int, info json) Select info->name from users 2016Postgres中国用户大会 用户权限定制0 码力 | 26 页 | 1.13 MB | 1 年前3
 Greenplum 精粹文集是如何的方便,另外,开发新的功能模块、新的数据类型、新的索 引类型等等非常方便,只要按照 API 接口开发,无需对 PG 重新编译。 PG 中 contrib 目录下的各个第三方模块,在 GP 中的 postgis 空间 数据库、R、Madlib、pgcrypto 各类加密算法、gptext 全文检索都 是通过这种方式实现功能扩展的。 4) 在诸如 ACID 事物处理、数据强一致性保证、数据类型支持、独特 的 MVCC 之间的关联是不能走等值关联的,也就是说, Hash Join 和 Merge Join 都是无法选择的,只能选择 Nestloop Join, 这很致命。因此,如果你不能确保所有相关联的字段具有相同的数据 类型,这三种数据类型中,建议永远不要使用 smallint 和 bigint,分别 用 int 和 numeric 代替。 接下来说一说 SQL 语句的注意事项: 1) 要注意使用 LeftJoin(Right0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集是如何的方便,另外,开发新的功能模块、新的数据类型、新的索 引类型等等非常方便,只要按照 API 接口开发,无需对 PG 重新编译。 PG 中 contrib 目录下的各个第三方模块,在 GP 中的 postgis 空间 数据库、R、Madlib、pgcrypto 各类加密算法、gptext 全文检索都 是通过这种方式实现功能扩展的。 4) 在诸如 ACID 事物处理、数据强一致性保证、数据类型支持、独特 的 MVCC 之间的关联是不能走等值关联的,也就是说, Hash Join 和 Merge Join 都是无法选择的,只能选择 Nestloop Join, 这很致命。因此,如果你不能确保所有相关联的字段具有相同的数据 类型,这三种数据类型中,建议永远不要使用 smallint 和 bigint,分别 用 int 和 numeric 代替。 接下来说一说 SQL 语句的注意事项: 1) 要注意使用 LeftJoin(Right0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum机器学习⼯具集和案例✓ 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动 化 X 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客 户 商业影响 2017.thegiac.com 用户案例例20 码力 | 58 页 | 1.97 MB | 1 年前3 Greenplum机器学习⼯具集和案例✓ 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动 化 X 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客 户 商业影响 2017.thegiac.com 用户案例例20 码力 | 58 页 | 1.97 MB | 1 年前3
共 7 条
- 1













