Greenplum开源MPP数据库介绍Greenplum 开源MPP数据仓库介绍 李晓亮Greenplum工程师、内核团队经理 Confidential │ ©2022 VMware, Inc. 2 Agenda Ø Greenplum简介 Ø Greenplum的MPP架构 Ø 分布式优化器: Postgres planner 和 ORCA Ø 分布式事务和执行 Ø Greenplum存储 Greenplum生态 Ø Greenplum 7 Confidential │ ©2022 VMware, Inc. 3 Greenplum简介:什么是Greenplum? 基于PostgreSQL、开源、分布式MPP、ACID完备、为OLAP优化的关系型数据仓库。 https://greenplum.org https://github.com/greenplum-db/gpdb Confidential 2010年被EMC收购 Ø 2012年成为Pivotal的一部分 Ø 2015年开源,可能是世界上第一个成熟商用的开源 MPP数据仓库 Ø 2019年底跟随Pivotal被VMware收购 Confidential │ ©2022 VMware, Inc. 5 谁在用Greenplum? Ø 500多付费企业客户 Ø 成千上万的开源用户 Ø 支撑巨大的生产集群: q 250+ servers q 0 码力 | 23 页 | 4.55 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密深度揭秘Greenplum开源数据库 透明加密 Greenplum 研发工程师 王淏舟 1. 我们所面临的问题 2. 基于pgcypto的数据加密方案 3. GPDB数据透明加密方案设计 4. GPDB数据透明加解密流程 5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall pgcypto的问题 一款开源的HTAP数据库: • pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall again GPDB透明加密 一款开源的HTAP数据库:0 码力 | 48 页 | 10.19 MB | 1 年前3
TiDB 开源分布式关系型数据库而TipDB TiDB 开源分布式关系型数据库 TiDB PRODUCT PORTFOLIO & VERITICAL CASE STUDY 外网全钼 外和折马外 COeG6 平凯星辰 (北京) 科技有限公司 目录 Contents 第一章 关于 PingCAP 1L1 PingCAP简介 05 12 创新成果 05 1.3 发展历程 06 1.4 技术标准起草 07 15荣誉1 07 07 16 代表用户 08 第二章 TiDB 开源分布式关系型数据库 2.1 产品简介。 2.2 TiDB架构图.ee 10 23 核必特性 11 2.4 TiFlash 高性能列式分析引擎 12 25 TiDB企业 12 2.6 TiDB 社区版与企业版差异 13 第三章 TiDB 生态工具 3.1 数据迁移 . 16 5 一05 1.1 PingCAP 简介 PingCAP 成立于 2015 年,是一家企业级开源分布式数据库厂商,提供包括开源分布式数据库产品、解 决方案与咨询、技术支持与培训认证服务,致力于为全球行业用户提供稳定高效、安全可告、开放兼容 的新型数据基础设施,解放企业生产力,加速企业数字化转型升级。 由PingCAP0 码力 | 58 页 | 9.51 MB | 1 年前3
QCon北京2018-《TiDB架构与开源之路》-申砾TiDB 架构及开源之路 申砾 @ PingCAP About Me • VP of Engineering @ PingCAP • Netease/360/PingCAP • Tech lead of TiDB About PingCAP • Since 2015 • Beijing, Shanghai, Guangzhou, Silicon Valley, Home • Open-Source0 码力 | 44 页 | 11.38 MB | 1 年前3
Pivotal Greenplum 5.0 - 开源MPP 数据库的不二之选开源 MPP 数据库的不二之选: Pivotal Greenplum 5.0 姚延栋 yyao@pivotal.io 开放源代码 SQL 企业级数据库 生态系统 MPP 高速数据加载 多态存储 表‘SALES’ 列存储 行存储 1月 一年前 二年前 外部表 12月 11月 4月0 码力 | 18 页 | 913.39 KB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 ............................................................................................ 4 欧拉开源操作系统 .............................................................................................. ............................................................................................ 6 欧拉开源操作系统平台架构 ..........................................................................................0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 精粹文集传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行 承载了并行 查询计划生产和 Dispatch 分发(QD)、协调节点上 QE 执行器的并 行工作、负责数据分布、Pipeline 计算、镜像复制、健康探测等等诸 多任务。 在 Greenplum 开源以前,据说一些厂商也有开发 MPP 数据库的打算, 其中最难的部分就是在 Interconnect 上遇到了障碍,可见这项技术的 关键性。 Greenplum 集群架构 Big Date2.indd 车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单0 码力 | 64 页 | 2.73 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践同业务场景下,基于Kylin的MOLAP模式与基于 Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数 据应 这是一个劳动密集型的业务,外卖业务有上万人的运营团队来服务全国几百万的商家,并以“商圈 ”为单元,服务于“商圈”内的商家。“商圈”是一个组织机构维度中的最小层级,源于外卖组织的特 点,“商圈”及其上层组织机构是一个变化维度,当“商圈”边界发生变化时,就导致在往常日增量的 业务生产方式中,历史数据的回溯失去了参考意义。在所有展现组织机构数据的业务场景中,组 织机构的变化是一个绕不开的技术问题。此外,商家品类、类型等其它维度也存在变化维的问题 当业务分析维度相对固化,并在可以使用历史状态时,按照时间进行增量生产,加工 成本呈线性增长状态,数据加工到更粗的粒度(如组织单元),减少结果数据量,提高交互效率 。如上图所示,由A模型预计算到B模型,使用Kylin是一个不错的选择。 ROLAP: 当业务分析维度灵活多变或者特定到最新的状态时(如上图A模型中,始终使用最新的 商家组织归属查看历史),预计算回溯历史数据成本巨大。在这种场景下,将数据稳定在商家的 粒度,通过现场0 码力 | 8 页 | 429.42 KB | 1 年前3
PieCloudDB Database 产品白皮书 1DC:全球数据圈预测 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算 (Data Computing) 的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 化转型面临巨大挑战,急需一款数据库产品,帮助其最大化利用数据资产,降本增效,进行更智能高效的数据计算。 数据库的未来在云上 随着云计算时代的 量提高查询性能。此外,PiecloudDB PiecloudDB 还支持查询优化器Orca。Orca是一款开源的、基于Cascades 模型的模块化查询优化器, 可以帮助用户对SQL进行优化,生成高效的查询计划。 此外,PieCloudDB 兼容 ORCA 优化器 (DORCA 是一款开源的、基于 Cascades 模型的模块化查询优化器,可以帮助用 户对 SQL 进行优化,生成高效的查询计划) HDFS、MySQL 、Oracle等外部数据。PieCloudDB 支持JS5ON,XML,Parquet以及 二进制数据等格式,同时,PieCloudDB 既支持用户利用过程语言自行开发模块进行数据分析也原生兼容开源机器学 习库Apache MADlib,从而可以原生实现一些高级机器学习功能。该拓展提供数学、统计学以及机器学习方法,包括 但不限于线性回归、关联规则、贝叶斯分类、决策树和随机森林等算法支持。同时 Openpie0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算(Data Computing)的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 化转型面临巨大挑战,急需一款数据库产品,帮助其最大化利用数据资产,降本增效,进行更智能高效的数据计算。 数据库的未来在云上 等测试,实现 了包括聚集下推、Block Skipping 等功能模块,大大缩短执行时间,高效的数据查询提高了数据分析的实时性。 此外,PieCloudDB 兼容 ORCA 优化器(ORCA 是一款开源的、基于 Cascades 模型的模块化查询优化器,可以帮助用 户对 SQL 进行优化,生成高效的查询计划)。 PieCloudDB 通过独特的设计,具备原生多租户能力,每个租户有自己的数据库和虚拟数仓。不同的租户互相隔离, 通过预计算每个块(block) 中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性能。此外,PieCloudDB PieCloudDB 还支持查询优化器Orca。Orca是一款开源的、基于Cascades 模型的模块化查询优化器, 可以帮助用户对SQL进行优化,生成高效的查询计划。 湖仓一体化分析 PieCloudDB 支持统一的资源管控,通过云原生存储引擎支持多种存0 码力 | 17 页 | 2.02 MB | 1 年前3
共 94 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10













