Greenplum Database 管理员指南 6.2.1...................................................................................... - 93 - 模式搜索路径 .................................................................................................. .................................................................................. - 280 - GP 软件目录结构 .................................................................................................. 自动切换命令 更灵活的并行数据库备份恢复命令 高速 DDL 备份命令 并行 DDL 恢复命令 更先进的跨集群数据同步命令 集群间的表结构差异增量比对命令 良好兼容的 pgAdminIII 客户端 改善的 gpexpand 命令 Greenplum Database0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商/data/greenplum-client/greenplum\_client\_path.sh 执⾏ source ~/.bashrc 备注:/data/greenplum-client是greenplum-client的安装路径 4) 连接数据库 psql -h hostIP(或域名) –U username -d database -p port –W 1.2 udw(udpg)客⼾端⽅式访问(以Centos为例) source /data/udw-client/udw_client_path.sh 执⾏: source ~/.bashrc 备注:/data/udw-client是udw-client的安装路径 4) 连接数据库 psql -h hostIP(或域名) –U username -d database -p port –W 快速上⼿ Greenplum数据仓库 UDW Copyright /data/greenplum-client/greenplum_client_path.sh 执⾏ source ~/.bashrc 备注:/data/greenplum-client是greenplum-client的安装路径 访问UDW数据仓库 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 51/206 4) 连接数据库 psql -h hostIP(或域名)0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum 精粹文集ACID 在内的所有特征。 从上图可以看到,Greenplum 的最小并行单元不是节点层级,而是在 实例层级。安装过 Greenplum 的同学应该都看到每个实例都有自己 的 Postgresql 目录结构,都有各自的一套 Postgresql 数据库守护进 程(甚至可以通过 UT 模式进行单个实例的访问)。正因为如此,甚 至一个运行在单节点上的 GreenplumDB 也是一个小型的并行计算架 构,一般一个节点配置 Mapreduce 没有统计信息,不能做基于 cost-base 的优化;MPP 数据库可以利用统计信息很好地进行并行计算优化。例如,MPP 对 于不同分布的数据可以在计算中基于 Cost 动态决定最优执行路径, 如采用重分布还是小表广播。 Big Date2.indd 13 16-11-22 下午3:38 14 ·Reduce 效率对比: 对比于 MPP 数据库的 SQL 执行器 -executor,Mapreduce 表代价 rB×wB×N ——重分布 B 表代价 rA×wA×N×N——广播 A 表代价 rB×wB×N×N——广播 B 表代价 执行计划会根据以上 4 种代价,在符合逻辑关系的组合中,选择代价 最低的路径。如果我们发现执行计划不如我们期望的那样,我们可以 进行的干预是: 对相关的表收集统计信息,或者修改 session 级别的 gp_segments_ for_planner 参数的值,不要试图在更高级别修改该参数,那样是极其0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 编译安装和调试Greenplum 编译安装和调试 本文先介绍如何从源代码编译安装Greenplum、初始化Greenplum集群。然后介绍SQL在 Greenplum中的典型执行路径,最后介绍一些调试技巧。 源代码使用 Greenplum 开源社区最新源代码 6X_STABLE 分支: https://github.com/greenplum-db/gpdb,内核代码基于 PostgreSQL PORT_BASE=40000 # 根据需要,修改下面的路径和主机名 # 有几个DATA_DIRECTORY, 每个节点上便会启动几个segments declare -a DATA_DIRECTORY=(/path/to/your/data /path/to/your/data) # master的主机名, 路径和端口 MASTER_HOSTNAME=your_hostname 2.2.2 查看日志 常用的日志文件有两类,一种是 gpinitsystem 的日志,一种是数据库的日志。它们分别保存在不 同的目录下: ● gpinitsystem 的日志文件。默认路径为 ~/gpAdmin/gpinitsystem_*** ● 数据库的日志文件:进入 master (segment 的日志类似)的日志目录 (例如 /data/master/gpseg-1/pg_log/)0 码力 | 15 页 | 2.07 MB | 1 年前3
Pivotal Greenplum 最佳实践分享个性化备份恢复 备份恢复命令 备份文件gz压缩 按表备份 – 每个表每个实例备单个文件 将分区表分别备成单独文件 缺省备份目录在db_dumps下建立日期路径,与缺省备份一致;也可指定备份路径 按照模式、表清单备份、可排除部分表、可排除全部外部表的Error表 有详细日志、自劢生成成功失败清单、可断点续跑[到表级] 可指定条件筛选数据进行备份 0 码力 | 41 页 | 1.42 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Greenplum扩展规划 六 10 greenplum体系架构 postgresql体系结构 11 greenplum体系架构 postgresql体系结构 • pg结构组成 Ø 连接关系系统 Ø 编译执行系统 Ø 存储执行系统 Ø 事务系统 Ø 系统表 • pg逻辑和物理结构 Ø instance实例 - user - tablesapce Ø database - schema row Ø 物理文件 - oid - 表空间 - 数据文件命名 12 greenplum体系架构 greenplum的体系结构 13 greenplum体系架构 greenplum的体系结构 14 greenplum体系架构 greenplum的体系结构 • greenplum的架构特点 Ø MPP ShareNothing 海量并行处理+完全无共享 Ø cpu计算能力 Ø 系统状态监控 - gpcc -公司IDC_02 机房 26 Greenplum运维体系 系统状态监控 - gpcc -公司IDC_03机房 27 Greenplum运维体系 数据库备份 • 配置与结构备份 Ø 多机房级联备份 Ø Greenplum在本机进行第一次备份 Ø 备份通过rsync传输到同机房ETL服务器 Ø 各机房ETL服务器在备份到备份服务器 • 结果数据备份 Ø Green0 码力 | 43 页 | 9.66 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 询。与旧式 MPP 数据库中常用的传统 RDBMS 查询优化器相比,GPORCA 大幅度地提高了查询性能。 Pivotal 分析师 数据 科学家 灵活 部署 数据源和数据管道 Spring Cloud Data Flow ETL 本地存储 HDFSS 云对象 存储 GemFire Spark 其他 RDBMSes 多结构数据 PIVOTAL GREENPLUM 平台 原生接口 分析应用 用户 JDBC、OBBC Teradata SQL Apache MADlib Python. R、 Java、Perl、C Manager 多态存储 Command Center SQL 兼容性 (Hyper-Q) PostgreSQL 内核 JSON、Apache AVRO、Apache Parquet 和 XML 结构化数据 pivotal.io/cn 白皮书 5 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum 介绍MPP(大规模并行处理)架构构建,具有良好的弹性和线性扩展能力,并内置 并行存储、并行通讯、并行计算和优化技术。同时,Greenplum 还兼容 SQL 标准,具备强大、 高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum 6: 混合负载的理想数据平台Greenplum 6: 混合负载的理想数据平台 高小明 全球领先的开源MPP大数据平台 可扩展性 ACID事务 VS 分布式 简单易用 VS 结构化 半结构非结构化 VS 事务型 分析型 VS MPP - massively parallel processing - 大规模并行处理 master standby primary Segment 3C Segment 3D 15 Pivotal Confidential–Internal Use Only 递归查询 表‘SALES’ 表‘SALES’ ■ 层次结构 ■ 树状结构 WITH RECURSIVE included_parts(sub_part, part, quantity) AS ( SELECT sub_part, part, quantity0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum开源MPP数据库介绍查询的生命周期: 1) 客户端连接coordinator, coordinator fork出QD 2) QD 拿到纯文本的查询,解析、优化、生成一个树形结构的分布式计划 3) QD 生成slice结构,生成每个slice的一系列进程结构(Gang) 4) QD 连接segment节点,segment节点fork出QE,QE执行分布式计划 5) QD 从QE归集结果,返回给客户端 Confidential0 码力 | 23 页 | 4.55 MB | 1 年前3
共 19 条
- 1
- 2













