Greenplum 6: 混合负载的理想数据平台Greenplum 6: 混合负载的理想数据平台 高小明 全球领先的开源MPP大数据平台 可扩展性 ACID事务 VS 分布式 简单易用 VS 结构化 半结构非结构化 VS 事务型 分析型 VS MPP - massively parallel processing - 大规模并行处理 master standby primary 3B Segment 3C Segment 3D 15 Pivotal Confidential–Internal Use Only 递归查询 表‘SALES’ 表‘SALES’ ■ 层次结构 ■ 树状结构 WITH RECURSIVE included_parts(sub_part, part, quantity) AS ( SELECT sub_part, part, quantity0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1.................................................................................. - 280 - GP 软件目录结构 .................................................................................................. 自动切换命令 更灵活的并行数据库备份恢复命令 高速 DDL 备份命令 并行 DDL 恢复命令 更先进的跨集群数据同步命令 集群间的表结构差异增量比对命令 良好兼容的 pgAdminIII 客户端 改善的 gpexpand 命令 Greenplum Database 在安装GP时缺省使用资源队列来管理资源。所有的ROLE都必须分配到资源队列。 如果管理员创建ROLE时没有指定资源队列,该ROLE将会被分配到缺省的资源队列 pg_default。 建议管理员为不同类型工作负载创建结构性独立的资源队列。例如,可以为高级用 户、WEB用户、报表管理等创建不同的资源队列。可以根据相关工作的负载压力设置合 适的资源队列限制。目前资源队列的限制包括: 活动语句数量。同时正在0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、 ELT、文本挖掘、统计 运算提供统一的平台 • 可以使用SQL、 MapReduce、R等在 所有层次上对任何数 据进行并行分析 19 通过经济的方案扩展 到千万亿字节规模 • 不用担心数据增长或 者开始的规模太小 • 在商用硬件上通过线 性、经济的方式扩展 Greenplum数据引擎体系0 码力 | 45 页 | 2.07 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Greenplum扩展规划 六 10 greenplum体系架构 postgresql体系结构 11 greenplum体系架构 postgresql体系结构 • pg结构组成 Ø 连接关系系统 Ø 编译执行系统 Ø 存储执行系统 Ø 事务系统 Ø 系统表 • pg逻辑和物理结构 Ø instance实例 - user - tablesapce Ø database - schema row Ø 物理文件 - oid - 表空间 - 数据文件命名 12 greenplum体系架构 greenplum的体系结构 13 greenplum体系架构 greenplum的体系结构 14 greenplum体系架构 greenplum的体系结构 • greenplum的架构特点 Ø MPP ShareNothing 海量并行处理+完全无共享 Ø cpu计算能力 Ø 系统状态监控 - gpcc -公司IDC_02 机房 26 Greenplum运维体系 系统状态监控 - gpcc -公司IDC_03机房 27 Greenplum运维体系 数据库备份 • 配置与结构备份 Ø 多机房级联备份 Ø Greenplum在本机进行第一次备份 Ø 备份通过rsync传输到同机房ETL服务器 Ø 各机房ETL服务器在备份到备份服务器 • 结果数据备份 Ø Green0 码力 | 43 页 | 9.66 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 询。与旧式 MPP 数据库中常用的传统 RDBMS 查询优化器相比,GPORCA 大幅度地提高了查询性能。 Pivotal 分析师 数据 科学家 灵活 部署 数据源和数据管道 Spring Cloud Data Flow ETL 本地存储 HDFSS 云对象 存储 GemFire Spark 其他 RDBMSes 多结构数据 PIVOTAL GREENPLUM 平台 原生接口 分析应用 用户 JDBC、OBBC Teradata SQL Apache MADlib Python. R、 Java、Perl、C Manager 多态存储 Command Center SQL 兼容性 (Hyper-Q) PostgreSQL 内核 JSON、Apache AVRO、Apache Parquet 和 XML 结构化数据 pivotal.io/cn 白皮书 5 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum 介绍MPP(大规模并行处理)架构构建,具有良好的弹性和线性扩展能力,并内置 并行存储、并行通讯、并行计算和优化技术。同时,Greenplum 还兼容 SQL 标准,具备强大、 高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商hdfs外部表:创建hdfs外部表 ufile外部表:创建ufile外部表 4.8 变更表 变更表 我们可以通过 ALTER TABLE 语句来更改⼀张表的定义,包括列的定义、数据分布策略、存储模型和分区结构。 给表中的某⼀列增加⾮空约束: ALTER TABLE test ALTER COLUMN street SET NOT NOT NULL; 改变表的数据分布策略 ALTER TABLE test 的时候需要⽤这个值,详情请参考删除分区表 6.3 加载数据分区表 加载数据分区表 在创建了分区表结构后,⽗表⾥⾯是没有数据的。数据⾃动地存储到最底层的⼦分区中。 如果记录不满⾜任何⼦分区表的要求,插⼊将会被拒绝,数据加载都会失败。要避免不合要求的记录在加载时被拒绝导致的失败,可以在定义分区结构时,创建⼀个默认分区(DEFAULT)。任 何不满⾜分区 CHECK 约束记录都会被加载到默认分区。 record 的结构。 UDW中Json类型 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 150/206 json_to_recordset(json) 根据⼀个由 JSON 对象组成的数组, 构建⼀个任意的 record 集合。 和所有返回 record 的函数⼀样, 调⽤者必须通过 as 语句来明确地定义 record 的结构。例如:0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum开源MPP数据库介绍查询的生命周期: 1) 客户端连接coordinator, coordinator fork出QD 2) QD 拿到纯文本的查询,解析、优化、生成一个树形结构的分布式计划 3) QD 生成slice结构,生成每个slice的一系列进程结构(Gang) 4) QD 连接segment节点,segment节点fork出QE,QE执行分布式计划 5) QD 从QE归集结果,返回给客户端 Confidential0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum机器学习⼯具集和案例Greenplum ⼤大数据平台 • 一次打包,到处运行:裸机、私有云、公有云 • 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完0 码力 | 58 页 | 1.97 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密calculating optimizing Data (Encrypted) TDE key GPDB数据透明加解密流程 秘钥管理 GPDB透明加密解析 GPDB TDE 使用三层key结构 • Master key: 加解密 major keys • Major keys: 加解密对应的 object keys • Object keys: 加解密对应的数据文件 秘钥管理 • 支持外部的KMS服务 加密的major key会被送进KMS中,由master key来解密,KMS只返回解密后的Major key. • 所有的object keys和major keys 存储于数据库本地. 三层key结构 GPDB透明加密解析 Master Key Major Keys Object Keys Encrypted table files Encrypted log files Encrypted0 码力 | 48 页 | 10.19 MB | 1 年前3
共 18 条
- 1
- 2













