Greenplum分布式事务和两阶段提交协议项目 全新的问答论坛 分布式事务和 两阶段提交协议 6 ● 事务实现原理和Write Ahead Logging(WAL) ● 分布式事务和两阶段提交的原理 ● Greenplum两阶段提交协议的实现 ● Greenplum两阶段提交协议的优化 Outline 7 事务的属性:ACID 属性 含义 数据库系统的实现 Atomic 原子性 事务中的操作要么全部正确执行,要么完全不 执行。 Write Ahead Logging,分布式事务:两阶段提交协议 Consistency 一致性 数据库系统必须保证事务的执行使得数据库 从一个一致性状态转移到另一个一致性状态。 (满足完整性约束) 实现对A、I、D三个属性的支持 Isolation 隔离性 多个事务并发地执行,对每个事务来说,它并 不会感知系统中有其他事务在同时执行。 多版本并发控制Multi-Version 2PL)、乐观并发控制 (OCC) Durability 持久性 一个事务在提交之后,该事务对数据库的改变 是持久的。 Write Ahead Logging + 存储管理 Jim Gray于1981年VLDB描述了事务的原子性、一致性和持久性,在此基础上,Haerder和Reuter在1983年中提出了事务的隔离性并提出术语 “ACID”,自此,事务的ACID四个性质成为业内标准术语 8 Disk-Oriented0 码力 | 42 页 | 2.12 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1Greenplum 和相关技术领域,主要工作职责是 售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 .......................................................................................... - 39 - 支持的客户端应用 ............................................................................................ ................................................................................... - 86 - 转移临时文件或事务文件的位置 ............................................................................ - 87 - 创建表空间 ..0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享nal Use Only GPDB:为大数据存储、计算、挖掘而设计 标准 SQL 数据库:ANSI SQL 2008 标准,OLAP,JDBC/ODBC 支持ACID、分布式事务 分布式数据库:线性扩展,支持上百物理节点 企业级数据库:全球大客户超过 1000+ 安装集群 百万行源代码,超过10年的全球研发投入 开源数据库(greenplum.org),良性生态系统 高速数据加载 近实时数据加载 任意系统数据访问 存储 & 数据访问 混合存储引擎(行存&列存) 多种压缩,多级分区表 索引(B树,位图,GiST) 安全性 语言支持 标准SQL支持,SQL 2003 OLAP扩展 支持 MapReduce 扩展编程语言 (Python,R, Java, Perl, C/C++) 第三方工具 BI 工具, ETL 工具 文本分析,数据挖掘等 管理工具 Only 多态存储 列存储更适合压缩 查询列子集时速度快 不同列可以使用不同压缩方式: gzip (1- 9), quicklz, delta, RLE 访问多列时速度快 支持高效更新和删除 AO 主要为插入而优化 表‘SALES’ 11月 列存储 行存储 7月 一年前 二年前 外部表 历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中0 码力 | 44 页 | 8.35 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密GPDB数据透明加解密流程 5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb GPDB • 不兼容ETL工具 性能低 • 不支持索引 • 优化器无法使用,需要全表扫描 局限性高 • 多表关联查询需要先全表解密 • 只能加密表数据 pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 com/greenplum-db/gpdb Recall pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall0 码力 | 48 页 | 10.19 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 .............................................................................................. 8 支持多种云不受限于基础架构的数据平台 .................................................................................. 近日,Greenplum 社区和欧拉开源社区深化合作,在欧拉开源操作系统(openEuler, 简称“欧拉”)编译测试了高级分 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点,0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台Greenplum 6: 混合负载的理想数据平台 高小明 全球领先的开源MPP大数据平台 可扩展性 ACID事务 VS 分布式 简单易用 VS 结构化 半结构非结构化 VS 事务型 分析型 VS MPP - massively parallel processing - 大规模并行处理 master standby primary Greenplum在摩根士丹利 OLTP - Online transaction processing - 联机事务处理 出色的OLTP特性 天生的优势 ● 行式存储 ● 索引 ● 直接分发 ● 完整的增删改 Greenplum 6 增强 ● 并发修改、删除 ● 系统性的优化事务和锁 26 Pivotal Confidential–Internal Use Only 行式存储 表‘SALES’ 表‘SALES’ 表‘SALES’ ■ 更适合OLTP负载 ■ 高效更改和删除 ■ 适合需要全部或者多数列的查询 表 orders 索引 Greenplum支持以下索引: • Btree • Bitmap • Gist • GIN • BRIN (开发中) <10ms的访问 时间,即使是 上亿条记录 <~ 100 不同值 B-Tree Bitmap 地理空间 区域0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum 精粹文集Big Date2.indd 1 16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单 判断的标准就是看看底下那个轮子有多少人使用,有多少人为它贡 献力量。 2) 为什么是 Postgresql Greenplum 精粹文集 5 1) PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法 支持,除对 ANSI SQL 完全支持外,还支持比如分析函数(SQL2003 OLAP window 函数),还可以用多种语言来写存储过程,对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远,很多分 析功能都不支持,而 Greenplum 作为 MPP 数据分析平台,这些功 能都是必不可少的。0 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal Greenplum 最佳实践分享Greenplum运维常用命令 Greenplum日常检查和故障处理 Greenplum项目经验分享 内核参数 通常情况下,内核参数按照GPDB安装手册配置,如需要增加连接数支持,以下参数需要增大 kernel.shmmax = 1000000000 kernel.sem = 250 512000 100 2048 Redhat 6.2以后,内核增加 系统表不支持Reorganize操作,因此,需要定期vacuum,例如设置定时作业,每周对所有系统表vacuum analyze一次 • 查询视图GP_TOOLKIT.GP_BLOAT_DIAG可监控垃圾空间的膨胀系数 • REINDEX:回收索引的垃圾空间 AGE监控和管理 PostgreSQL的MVCC事务语意依赖于比较事务ID(XID)的数值: 值: 一条带有大于当前事务的XID的插入 XID的行版本是―属于未来的‖, 并且不应为当前事务可见。 PostgreSQL使用特殊的 XID(FrozenXID)与普通的XID进行区分。 FrozenXID总是被认为比任何普通 的XID旧。 GPDB中关闭了Autovacuum(GPDB 4.2.6 UPPER) Age的监控: xid_war0 码力 | 41 页 | 1.42 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考“未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 Ø事务大,频率相对小,并发低 • 未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 轻量级数据仓库 —— Inforbright – 与MySQL数据库结合,易使用,冷热分离 – 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明 三 Greenplum体系架构0 码力 | 43 页 | 9.66 MB | 1 年前3
Pivotal HVR meetup 20190816异构平台环境下初始化同步 8 • 非侵入式技术对生产没有影响 • 基于日志捕获技术的实时性非常高 • 支持从过去的某一指定时间开始捕获 • 条件过滤 • 支持触发器捕获技术作为补充 基于数据库事务日志的变化数据捕获 9 • 避免人为错误 • 在迁移结束前校验数据 • 支持异构 异构平台间数据校验域修复 10 内置监控与报警 • 实时监控HVR进程 • 自动告警 • 与第三方企业监控平台集成 user; if that’s not configured just OS username Next and previous events 11 12 支持广泛的异构平台间数据复制 * HVR5.6还支持z/OS,Google Cloud Storage/Big Query 13 Compare Products 天天拍车是国内领先的二手车竞拍平台,现有核心业务是二手车线上 dxjW6RNA 14 Compare Products 需求:利用GP自建数据仓库面临的数据集成问题 ➢ 支持MySQL的全量以及增量备份 ➢ 支持Oracle的全量以及增量备份 ➢ 支持SQL Server的全量同步 ➢ 对于增量备份可以支持准实时的同步也可以支持延时同步 ➢ 同步软件不会对源库造成负载上升的问题 ➢ 同步中断后能够记录中断点,在下次同步时可以自动从中断点开始继续同步数据0 码力 | 31 页 | 2.19 MB | 1 年前3
共 25 条
- 1
- 2
- 3













