Greenplum 分布式数据库内核揭秘Confidential │ ©2021 VMware, Inc. Greenplum 分布式数 据库内核揭秘 Greenplum内核开发工程师 2022-03-16 李正龙 Confidential │ ©2021 VMware, Inc. Agenda 2 - Greenplum 分布式数据库简介 - Greenplum 集群化概述 - 分布式数据存储与多态存储 - 分布式查询优化器与执行器0 码力 | 31 页 | 3.95 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum............................................................................................ 6 引领内核创新 ................................................................................................ 白皮书 5 白皮书 | 5 欧拉开源操作系统 欧拉开源操作系统(openEuler, 简称“欧拉”)从服务器操作系统正式升级为面向数字基础设施的操作系统,支持服务 器、云计算、边缘计算、嵌入式等应用场景,支持多样性计算,致力于提供安全、稳定、易用的操作系统。通过为应用 提供确定性保障能力,支持 OT 领域应用及 OT 过联合创新、社区共建,不断增强场景化能力,最终实现统一 操作系统支持多设备,应用一次开发覆盖全场景。 openEuler 平台架构 openEuler 是覆盖全场景的创新平台,在引领内核创新,夯实云化基座的基础上,面向计算架构互联总线、存储介质 发展新趋势,创新分布式、实时加速引擎和基础服务,结合边缘、嵌入式领域竞争力探索,打造全场景协同的面向数字 基础设施的开源操作系统。0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 介绍性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 支持扩展(Extension)、自定义类型和函数、PXF eenplum 5.0 是开源之后发布的第一个稳定版本,大 约保持 1 个半月一个版本的发布速度。Greenplum 主干分支(master)开发非常活跃,众多社区 期待的特性稳健推进中,包括内核升级、新课题,处于业界领先地位。 Greenplum 社区邀请 Pivotal、阿里云、百度等社区人士共同定期举办各种技术研讨会、技术沙龙、 101 培训等活动,获得良好反馈。国内多所知名大学开设了0 码力 | 3 页 | 220.42 KB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台支持多种云不受限于基础架构的数据平台 Pivotal Greenplum 5 是首个内核百分百基于 Greenplum Database 开源项目及其相关源代码的版本。这意味着,可以通 过 greenplum.org 网站下载和编译的版本以及通过 Pivotal Network 分发的打包版本将具有相同的内核(只有个别微小差 别)。这是两年来致力于与 PostgreSQL 8.3.23 集成的成果,目的在于扩展和融入以 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload Manager 多态存储 Command Center SQL 兼容性 (Hyper-Q) PostgreSQL 内核 JSON、Apache AVRO、Apache Parquet 和 XML 结构化数据 pivotal.io/cn 白皮书 5 © Copyright 2017 Pivotal Software 是远程主机上)建立连接的新模块。Pivotal Greenplum 支持数据库用户 使用 dblink 在其他数据库中执行简短的临时查询。最后,Greenplum 5 将已安装的 Python 版本升级为 2.7。PL/Python 和 Python 管理实用程序现在均以版本 2.7 为基础。 总结 Greenplum 5 是 Pivotal 推出的新一代数据平台,在对经过十几年工程设计投入的产品进行改进的同时带来了多项新功能,0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum开源MPP数据库介绍Greenplum 开源MPP数据仓库介绍 李晓亮Greenplum工程师、内核团队经理 Confidential │ ©2022 VMware, Inc. 2 Agenda Ø Greenplum简介 Ø Greenplum的MPP架构 Ø 分布式优化器: Postgres planner 和 ORCA Ø 分布式事务和执行 Ø Greenplum存储 Kafka和其它流式来源 Confidential │ ©2022 VMware, Inc. 21 Greenplum 7的亮点:PostgreSQL v12 和新特性 Ø 6000+ 冲突 Ø 从9.4升级到12 Ø 80多万行改动 Ø Upsert, BRIN, JIT, … Confidential │ ©2022 VMware, Inc. 22 Greenplum 7的亮点:Greenplum 0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum 精粹文集第一次扩容是从 50 节点到 74 节点,完成 30TB 业务数据的导出、传输、 导入,以及 70TB 左右的索引数据创建,实际停机时间大约 3 天左右。 第二次扩容则到了上百节点。考虑到升级操作的可控性并缩短升级和 扩容时间,仍然采用新初始化集群的方案操作,在同一集群中初始化 了一个新数据库,将数据从旧库导出后,再导入新库。该方案在 2 天 之内完成 57TB 压缩数据的加载和 130TB 索引数据的创建。 五、Greenplum 系统表的维护及修复技巧 Greenplum 与其他所有关系型数据库一样,拥有一套管理数据库内 部对象及关联关系的元数据表,我们称之为 Greenplum 系统表。 Greenplum 的产品内核是基于 postgresql 数据库基础上开发完成的, 因此,Greenplum 系统表很多继承于 postgresql 数据库。 Greenplum 的系统表大致可分为这几类: 1) 数据库内部对象的元数据0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1梳理和打磨这个文档,并完 全根据最新的版本特性进行重新整理,希望能对中文爱好者提供一些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 6 版本都带来了极大 的性能和稳定性的提升。 声明 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的 ..................... - 362 - 第十七章:数据库的升级 ...................................................................................................... - 364 - 小版本升级........................................ ....................... - 364 - 升级条件 .................................................................................................................. - 364 - 小版本升级步骤 ..............................0 码力 | 416 页 | 6.08 MB | 1 年前3
PostgreSQL和Greenplum 数据库故障排查3)使用更严格的内存提交策略overcommit_memory: 内核参数overcommit_memory ,指定内存分配策略 可选值:0、1、2。 0, 表示内核将检查是否有足够的可用内存供应用进程使用; 如果有足够的可用内存,内存申请允许;否则,内存申请 失败,并把错误返回给应用进程。 1, 表示内核允许分配所有的物理内存,而不管当前的内存 状态如何。 2, 表示内核允许分配超过所有物理内存和交换空间总和的 内存0 码力 | 84 页 | 12.61 MB | 1 年前3
Greenplum上云与优化Greenplum上云与优化 — ApsaraDB for Greenplum介绍 2016Postgres中国用户大会 目 录 content ApsaraDB for GP的定位 ApsaraDB for GP的内核优化 未来的规划 2016Postgres中国用户大会 ApsaraDB for GP的定位 2016Postgres中国用户大会 ApsaraDB for GP的定位 GP的优势? 简单、高效解决大数据分析需求 MPP + 列存压缩 复杂SQL + 查询优化器 本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 ApsaraDB for GP的内核优化 2016Postgres中国用户大会 ApsaraDB for GP架构 ApsaraDB for GP 主节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 解决OOM问题 实例的OOM有时很频繁,同时OOM很难提前监控 我们的办法 利用外部脚本监控cgroup中的内存统计 发生内存水位较高时,将实例移入公共 cgroup;同时发出cancel query信号给内核 水位下降时移回实例的cgroup 2016Postgres中国用户大会 Linux Box CGroup backend backend backend CGroup backend0 码力 | 26 页 | 1.13 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案• 高效率 数据库管理系统(DBMS)的 规模/容量 11 需要采用一种新的方法 •“一切皆可商用”:商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘 过去Google™ 曾经用来实现信息搜索功能的技术, 现在被Greenplum用于数据仓库 现在的解决方案 12 通用并行数据流引擎可以通过本地方 式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术(由Google普及)的产品 • 采用新的编程模型,在商用硬件上并行处理和执行0 码力 | 45 页 | 2.07 MB | 1 年前3
共 20 条
- 1
- 2













