完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 .......................................................................................... 4 欧拉开源操作系统 ................................................................................................ .......................................................................................... 6 欧拉开源操作系统平台架构 ............................................................................................0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum开源MPP数据库介绍分布式执行和事务 Ø MVCC q Xmin, Xmax 是节点本地的 Ø 分布式快照 q QD生成,下发给QE q segment本地事务异步两阶段提交,保持一致性 Ø HTAP 优化 q 全局死锁检测 q 只读事务、只涉及到某个节点的操作、vacuum Ø SIGMOD 2021: Greenplum: A Hybrid Database for Transactional and Inc. 19 GPCC Greenplum Command Center Ø Web UI 监控和管理 Ø 实时性能监控 Ø 可视化计划 Ø 基于规则的任务管理 Ø 向客户推荐性能优化操作 Ø 报警和通知 Confidential │ ©2022 VMware, Inc. 20 Greenplum Streaming Server Ø ETL工具 (10+TB/hour) Ø0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1的计算实例,很多时候也叫 Segment Primary : GP 的主计算实例 Mirror : GP 的镜像计算实例 MPP : 大规模并行处理 算子 : 执行计划中的运算操作 背景简介 多年前,编者翻译了 GP4.2.2 的 AdminGuide,如今,GP 已经历经了无数个版 本更新和迭代,编者也有了更多的感悟,放眼 GP 的中文资料,为之动容,就想着再为 ....................................................................................... - 269 - 安装操作系统 ................................................................................................ ...................................................................................... - 271 - 支持的操作系统 ................................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商概览 产品架构 产品架构 云数据仓库产品架构 ⾼可⽤ 快速上⼿ 快速上⼿ ⼀、创建数据仓库 ⼆、连接数据仓库 操作指南 操作指南 关闭数据仓库 启动数据仓库 重启数据仓库 查看数据仓库详情 扩容数据仓库 更改数据仓库密码 续费 删除数据仓库 查看操作⽇志 查看监控 ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 163 177 177 183 190 190 191 192 udw优化指南 表膨胀 表膨胀 表膨胀的原因 如何避免表膨胀 UDW中 中Json类型 类型 Json相关操作 Json操作举例 Json相关函数 Json创建函数 Json处理函数 接⼊第三⽅ 接⼊第三⽅ BI ⼯具 ⼯具 ⼀、 UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet 节点扩容时数量有没有什么限制? 数据仓库价格 数据仓库价格 ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 5/206 概览 概览 产品架构 快速上⼿ 操作指南 访问UDW数据仓库 数据导⼊ 开发指南 udw优化指南 表膨胀 UDW中Json类型 接⼊第三⽅ BI ⼯具 UDW 使⽤案例 Pxf 扩展功能 迁移数据 使⽤ pg_dump0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum 精粹文集语言简单易学, 具有很强数据操纵能力和过程语言的流程控制能力,SQL 语言是专 门为统计和数据分析开发的语言,各种功能和函数琳琅满目,SQL 语言不仅适合开发人员,也适用于分析业务人员,大幅简化了数据 的操作和交互过程。 而对 MapReduce 编程明显是困难的,在原生的 Mapreduce 开发 框架基础上的开发,需要技术人员谙熟于 JAVA 开发和并行原理, 不仅业务分析人员无法使用,甚至技术人员也难以学习和操控。为 节点到 74 节点,完成 30TB 业务数据的导出、传输、 导入,以及 70TB 左右的索引数据创建,实际停机时间大约 3 天左右。 第二次扩容则到了上百节点。考虑到升级操作的可控性并缩短升级和 扩容时间,仍然采用新初始化集群的方案操作,在同一集群中初始化 了一个新数据库,将数据从旧库导出后,再导入新库。该方案在 2 天 之内完成 57TB 压缩数据的加载和 130TB 索引数据的创建。 随着中国大数据市场的井喷 载一般都非常小,故障 率也极低,在我们维护阿里 Greenplum 集群 3 年的时间里,以及接触 到的客户中,基本上没有碰到由于 master 故障导致集群不可用的情况, 唯一一次,还是因为客户误操作同时将 master 和 standby 节点的数据 目录 rm -rf。 Big Date2.indd 25 16-11-22 下午3:38 26 Master 节点推荐采用硬件规格如下:两块万兆网卡(一般多为单网卡0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议Greenplum两阶段提交协议的实现 ● Greenplum两阶段提交协议的优化 Outline 7 事务的属性:ACID 属性 含义 数据库系统的实现 Atomic 原子性 事务中的操作要么全部正确执行,要么完全不 执行。 Write Ahead Logging,分布式事务:两阶段提交协议 Consistency 一致性 数据库系统必须保证事务的执行使得数据库 从一个一致性状态转移到另一个一致性状态。 不允许Buffer Pool里未提交事务所修改的脏页刷到持久存储中 缓冲区管理策略Buffer Management Policy 13 ■ Force策略的问题 对持久存储器进行频繁的随机写操作,性能下降。 ■ No-Steal策略的问题 不允许未提交事务的脏页换出,系统的并发量不高。 ▪ No-Force / Steal 有更好的性能,但是怎么保证事务的原子性和持久 性? ❏ No-Force: 恢复时,从前往后,对提交的事务 的日志做redo操作。 日志Undo+Redo log(记录旧值和新值) (Steal / No-Force) 恢复时,从前往后对提交事务做 redo操作,从后往前对未提交事务 做undo操作 。 日志 0 码力 | 42 页 | 2.12 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 三大Greenplum集群定位分类 • 公司IDC_01机房Greenplum体系 Ø 公司第一套Greenplum集群,网络环境为千兆网 Ø 数据来源为OLTP库,针对小数据量传输和计算,部分实时交互操作 Ø 以对账业务为主,统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数 Ø 以重点业务线、活动数据、非OLTP业务数据的任务计算为主 环境创建与部署 • 部署注意点 Ø 资源要充足(ETL,管理节点,数据节点,数据集市) Ø 万兆网络 (网络环境对功能和性能的影响) Ø 节点规划 (数据节点6-10个segment节点) Ø 参数调整 (操作系统参数,greenplum集群参数) 24 Greenplum运维体系 系统状态监控 - gpcc -公司IDC_01机房 25 Greenplum运维体系 系统状态监控 - gpcc0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum介绍当master不 能连接到一个segment instance时,会把这个instance 标记为invalid。 Greenplum中的高可用方案 默认情况下,greenplum的失败操作模式是“read- only"模式,也就是说如果一个segment坏了,整个 greenplum会变成只读,不能写了。如果模式是 “continue”模式时,一个segment坏了的时候,数据 库仍 的特定数据集的本地数据库业务。 所有的数据库操作,如表扫描、表连接(joins)、聚集 ( aggregations),排序,这些操作都会在所有的 segment上并行执行。每个segment执行这些操作时都 不依赖其它的segment。 除了上面这引起典型的数据库操作,Greenplum的 数据库有一个额外的操作类型,称为的motion。 motion操作就是把查询处理过程中涉及到的其它节点 上的数据在各个节点中做移动。0 码力 | 38 页 | 655.38 KB | 1 年前3
Pivotal Greenplum 最佳实践分享eshold = 5000000(资料依据项目而定) Truncate操作不会丢失字段级统计信息,在适当条件下可仅针对系统字段执行Analyze 垃圾空间回收 • GPDB采用MVCC机制,UPDATE 或 DELETE并非物理删除,而只是对无效记 录做标记; • Update/delete操作后,数据库不会自动释放这些空间,这些垃圾空间的回收方 式: 1)Vacuum Full/REORGANIZE:立即释放垃圾空间还给操作系统 Vacuum Full相当于碎片整理; Reorganize相当于重建表,数据表对应的文件名(pg_class -> relfilenode)将会发生改变。 Vacuum Full的处理性能非常低,一般情况下不建议采用,可以用Reorganize代替、或者使用AO表; 系统表不支持Reorganize操作,因此,需要定期vac 物理模型对于系统性能有很大影响,因此需要我们特别关注。 以下来自于在某大型银行的使用经验: 行存储和列存储: • 避免过多使用列存储的原因是防止小档数过多。 • 列存储能够提升查询性能,对于更新和全字段类操作性能反而会下降 • 对于少数频繁查询的宽表,例如交易表、帐户表、客户表等采用列存储,其它表采用行存储 数据压缩: • 在金融业,行压缩的数据压缩比在1:6左右,一般采用zlib5级压缩0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum 分布式数据库内核揭秘Standby Coordinator 节点以及多个 Segment 节点组成 l Coordinator 是整个数据库的入口,客户端只会连接 至 Coordinator 节点,并执行相关的查询操作 l Standby 节点为 Coordinator 提供高可用支持 l Mirror 则为 Segment 提供高可用支持 7 Confidential │ ©2021 VMware, Inc (Heap Table):默认存储方式,同时也是 PostgreSQL 的默认存储方式。支持高效的更新 和删除操作,通常用于 OLTP 。 l Append-Optimized 表:以追加的方式写入数据,有着极高的写入性能,通常用于存储数据仓 库中的事实数据,不适合做频繁的更新、删除操作。 l Append-Optimized, Column Oriented 表:即 AOCO 表,在 Append-Optimized Segments 所发送的所有数据,不一定是最终结果数据,Coordinator 可能需要对收集的数据进行进一步地加工和处理,例如对 Segments 所发来的有序 Tuples 进行 Merge 操作。 Gather Motion postgres=# explain (costs off) select * from t order by t1; QUERY PLAN0 码力 | 31 页 | 3.95 MB | 1 年前3
共 24 条
- 1
- 2
- 3













