 Greenplum Database 管理员指南 6.2.1....................................................................................... - 240 - 数据格式 .................................................................................................. .................................................................................. - 354 - 扩容配置文件的格式 .............................................................................................. - 357 default_group。 DENY {deny_interval | deny_point} 定义限制 Role 登录的时间段,在指定的时间段内不允许登 录。可以指定日期或者日期加时间的格式。这些信息存储在 pg_catalog.pg_auth_time_constraint 系统表中。 该功能鲜有使用,该系统表的维护一直存在明显的问题,该 表没有约束限制,完全相同的限制信息可以被重复的存储在0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1....................................................................................... - 240 - 数据格式 .................................................................................................. .................................................................................. - 354 - 扩容配置文件的格式 .............................................................................................. - 357 default_group。 DENY {deny_interval | deny_point} 定义限制 Role 登录的时间段,在指定的时间段内不允许登 录。可以指定日期或者日期加时间的格式。这些信息存储在 pg_catalog.pg_auth_time_constraint 系统表中。 该功能鲜有使用,该系统表的维护一直存在明显的问题,该 表没有约束限制,完全相同的限制信息可以被重复的存储在0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商sqoop 把 hdfs 中的数据导⼊到 udw ⽤ mysql2udw 把 mysql 中的数据导⼊到 udw 创建 ufile 的外部表、导⼊导出数据到 ufile 通过外部表导⼊ json 格式的数据 在导⼊⼤量的数据的时候我们建议不要使⽤ insert ⼀条条的导⼊数据、强烈建议使⽤ copy、udwfile 导⼊数据。 5.1 insert加载数据 加载数据 我们可以通过insert插⼊数据到udw,语法如下所⽰: "+" 获取更多的信息) \du [模式] 列出⽤⼾ \l 列出所有数据库 (加 "+" 获取更多的信息) \z [模式] 列出表, 视图, 序列的访问权限 (和 dp ⼀样) 6. 格式选项 \a 在⾮对⻬和对⻬的输出模式之间切换 \C [字串] 设置表标题, 如果参数空则取消标题 \f [字串] 为⾮对⻬查询输出显⽰或设置域分隔符 \H 在 HTML 输出模式之间切换 Json创建函数 创建函数 to_json(anyelement) 以 JSON 格式返回输⼊的值。 数组和复合数据会被(递归地)转换为数组和对象; 如果有转换函数可以将输⼊的数据转换为 json 的话,那么使⽤转换函数; 或者产⽣⼀个 JSON 标量 (scalar)值。 数字、布尔值和空值(null)之外的其他标量会被表⽰为⽂本格式, 并通过正确的引⽤和转义来保证它是⼀个合法的 JSON 字符串。如下所⽰:0 码力 | 206 页 | 5.35 MB | 1 年前3 Greenplum数据仓库UDW - UCloud中立云计算服务商sqoop 把 hdfs 中的数据导⼊到 udw ⽤ mysql2udw 把 mysql 中的数据导⼊到 udw 创建 ufile 的外部表、导⼊导出数据到 ufile 通过外部表导⼊ json 格式的数据 在导⼊⼤量的数据的时候我们建议不要使⽤ insert ⼀条条的导⼊数据、强烈建议使⽤ copy、udwfile 导⼊数据。 5.1 insert加载数据 加载数据 我们可以通过insert插⼊数据到udw,语法如下所⽰: "+" 获取更多的信息) \du [模式] 列出⽤⼾ \l 列出所有数据库 (加 "+" 获取更多的信息) \z [模式] 列出表, 视图, 序列的访问权限 (和 dp ⼀样) 6. 格式选项 \a 在⾮对⻬和对⻬的输出模式之间切换 \C [字串] 设置表标题, 如果参数空则取消标题 \f [字串] 为⾮对⻬查询输出显⽰或设置域分隔符 \H 在 HTML 输出模式之间切换 Json创建函数 创建函数 to_json(anyelement) 以 JSON 格式返回输⼊的值。 数组和复合数据会被(递归地)转换为数组和对象; 如果有转换函数可以将输⼊的数据转换为 json 的话,那么使⽤转换函数; 或者产⽣⼀个 JSON 标量 (scalar)值。 数字、布尔值和空值(null)之外的其他标量会被表⽰为⽂本格式, 并通过正确的引⽤和转义来保证它是⼀个合法的 JSON 字符串。如下所⽰:0 码力 | 206 页 | 5.35 MB | 1 年前3
 Greenplum 6: 混合负载的理想数据平台well-showcased 12 Pivotal Confidential–Internal Use Only 卓越的OLAP特性 列式存储 分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal • 历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中 • 无缝查询所有数据 • Text, CSV, Binary, Avro, Parquet 格式 6月 5月 10月 9月 8月 用户自定义数据存储格式 并发管理 ■ pgbouncer ■ 资源组(resource group) create resource group rg1 (cpu_rate_limit=200 码力 | 52 页 | 4.48 MB | 1 年前3 Greenplum 6: 混合负载的理想数据平台well-showcased 12 Pivotal Confidential–Internal Use Only 卓越的OLAP特性 列式存储 分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal • 历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中 • 无缝查询所有数据 • Text, CSV, Binary, Avro, Parquet 格式 6月 5月 10月 9月 8月 用户自定义数据存储格式 并发管理 ■ pgbouncer ■ 资源组(resource group) create resource group rg1 (cpu_rate_limit=200 码力 | 52 页 | 4.48 MB | 1 年前3
 Greenplum 精粹文集接下来,评估一下外部表加载数据的性能: 1) 一个 gpfdist 服务只使用一个 CPU 核的资源。 因此,通常,一个 gpfdist 服务每秒可以处理约 400MB~450MB 的 TXT 文本,如果是 CSV 格式,每秒可以处理约 300MB~350MB。 2) 一个 PrimaryInstance 在处理一个外部表加载时,只使用一个 CPU 核的资源。 通常,一个 Primary Instance 在处理外部表的数据时,每秒处理大 与触发器机制。所以,Pivotal 与 Protegrity 合作,一起简化了 Greenplum 中静态数据的加密操作。 Protegrity 可提供一组在专门的转型流程中加密数据的功能。启用功能 之后,物理数据将会采用新的格式保存在磁盘上以满足静态数据的加 密要求。解密数据、确定用户是否可以访问全部或者部分的数据也是 采用一个相似的流程。 此功能通过在加密之前捕获用户信息并将凭证传递至安装在所有 Greenplum 节点上的本地 rating, rating_date FROM sample_ssn_parts WHERE id = 1 在选定数据后,应当利用 PEP 流程检查功能,查看用户是否可以访问 数据,如果可以的话应显示哪种格式。在此情况下,gpuser 执行了此 查询并显示了原始插入的数值。SSN 数值对于任何其他用户来说都只 会看到 ###-##-6789 这样的显示内容,这依据于 ESA 上创建且下推 到本地 PEP0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集接下来,评估一下外部表加载数据的性能: 1) 一个 gpfdist 服务只使用一个 CPU 核的资源。 因此,通常,一个 gpfdist 服务每秒可以处理约 400MB~450MB 的 TXT 文本,如果是 CSV 格式,每秒可以处理约 300MB~350MB。 2) 一个 PrimaryInstance 在处理一个外部表加载时,只使用一个 CPU 核的资源。 通常,一个 Primary Instance 在处理外部表的数据时,每秒处理大 与触发器机制。所以,Pivotal 与 Protegrity 合作,一起简化了 Greenplum 中静态数据的加密操作。 Protegrity 可提供一组在专门的转型流程中加密数据的功能。启用功能 之后,物理数据将会采用新的格式保存在磁盘上以满足静态数据的加 密要求。解密数据、确定用户是否可以访问全部或者部分的数据也是 采用一个相似的流程。 此功能通过在加密之前捕获用户信息并将凭证传递至安装在所有 Greenplum 节点上的本地 rating, rating_date FROM sample_ssn_parts WHERE id = 1 在选定数据后,应当利用 PEP 流程检查功能,查看用户是否可以访问 数据,如果可以的话应显示哪种格式。在此情况下,gpuser 执行了此 查询并显示了原始插入的数值。SSN 数值对于任何其他用户来说都只 会看到 ###-##-6789 这样的显示内容,这依据于 ESA 上创建且下推 到本地 PEP0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum 介绍源,包括 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 SQL、JDBC 和 ODBC 等行业标准。经过半个多世纪的发展, SQL 成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行0 码力 | 3 页 | 220.42 KB | 1 年前3 Greenplum 介绍源,包括 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 SQL、JDBC 和 ODBC 等行业标准。经过半个多世纪的发展, SQL 成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行0 码力 | 3 页 | 220.42 KB | 1 年前3
 Greenplum数据库架构分析及5.x新功能分享 历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中  无缝查询所有数据  Text, CSV, Binary, Avro, Parquet 格式 6月 5月 10月 9月 8月 用户自定义数据存储格式 14 Pivotal Confidential–Inter nal Use Only 大规模并行数据加载 • 高速数据导入和导出 – 主节点不是瓶颈 – 10+0 码力 | 44 页 | 8.35 MB | 1 年前3 Greenplum数据库架构分析及5.x新功能分享 历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中  无缝查询所有数据  Text, CSV, Binary, Avro, Parquet 格式 6月 5月 10月 9月 8月 用户自定义数据存储格式 14 Pivotal Confidential–Inter nal Use Only 大规模并行数据加载 • 高速数据导入和导出 – 主节点不是瓶颈 – 10+0 码力 | 44 页 | 8.35 MB | 1 年前3
 Brin Index主Greenplum 7中的理论与实现Brin在AppendOnly Table上的实现 性能测试 15 Confidential │ ©2021 VMware, Inc. AoTable AppendOnly Table是一种紧凑的 数据格式,适用于较少进行 Update/Delete的场景 Tuple以紧凑的方式存储在变长 的Block中,所以Block在写入磁 盘后不能修改,只能向后追加新 的Block 为了实现并发Insert,每个AO表0 码力 | 32 页 | 1.04 MB | 1 年前3 Brin Index主Greenplum 7中的理论与实现Brin在AppendOnly Table上的实现 性能测试 15 Confidential │ ©2021 VMware, Inc. AoTable AppendOnly Table是一种紧凑的 数据格式,适用于较少进行 Update/Delete的场景 Tuple以紧凑的方式存储在变长 的Block中,所以Block在写入磁 盘后不能修改,只能向后追加新 的Block 为了实现并发Insert,每个AO表0 码力 | 32 页 | 1.04 MB | 1 年前3
 Greenplum on Kubernetes
容器化MPP数据库Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 → 半结构化/无模式 ○ 数据隔离 → 数据共享 ● 云数据库市场巨大 ● 云数据库增速巨大 ● DBasS的需求 ● 跨云的需求 云数据库实现方案 云数据库需求 ● DBasS0 码力 | 33 页 | 1.93 MB | 1 年前3 Greenplum on Kubernetes
容器化MPP数据库Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 → 半结构化/无模式 ○ 数据隔离 → 数据共享 ● 云数据库市场巨大 ● 云数据库增速巨大 ● DBasS的需求 ● 跨云的需求 云数据库实现方案 云数据库需求 ● DBasS0 码力 | 33 页 | 1.93 MB | 1 年前3
 Greenplum备份恢复浅析库对象,master产生的全局对象包含角色和表空间等 2. Regular files 包括各类辅助文件,例如存储着create database语句的文 件,备份状态报告文件等 其中最核心的每个segment的数据文件,命名格式如下: xxx_gp_dump_0_2_20170206160253.gz 其中XXX表示用户定义的文件前缀,0代表是非master节点,2代表该文件产生的 segment对应dbid,20170 码力 | 17 页 | 1.29 MB | 1 年前3 Greenplum备份恢复浅析库对象,master产生的全局对象包含角色和表空间等 2. Regular files 包括各类辅助文件,例如存储着create database语句的文 件,备份状态报告文件等 其中最核心的每个segment的数据文件,命名格式如下: xxx_gp_dump_0_2_20170206160253.gz 其中XXX表示用户定义的文件前缀,0代表是非master节点,2代表该文件产生的 segment对应dbid,20170 码力 | 17 页 | 1.29 MB | 1 年前3
 Greenplum 分布式数据库内核揭秘上按列进行存储,可对其使用不同的压缩算法进行压缩,对聚合查询有着天然的优势。 l 外部表:外部表的数据存储在外部,Greenplum 仅管理其元数据,支持多种外部数据源,例如 S3、HDFS、文件、Gemfire,以及多种数据格式譬如 Text、CSV、Avro、Parquet 等。 多态存储 Confidential │ ©2021 VMware, Inc. 14 多态存储 如上所示,可以根据数据访问频率以及数据量0 码力 | 31 页 | 3.95 MB | 1 年前3 Greenplum 分布式数据库内核揭秘上按列进行存储,可对其使用不同的压缩算法进行压缩,对聚合查询有着天然的优势。 l 外部表:外部表的数据存储在外部,Greenplum 仅管理其元数据,支持多种外部数据源,例如 S3、HDFS、文件、Gemfire,以及多种数据格式譬如 Text、CSV、Avro、Parquet 等。 多态存储 Confidential │ ©2021 VMware, Inc. 14 多态存储 如上所示,可以根据数据访问频率以及数据量0 码力 | 31 页 | 3.95 MB | 1 年前3
共 12 条
- 1
- 2













