PieCloudDB:云原生分布式虚拟数仓的诞生之旅PieCloudDB:云原⽣分布式 虚拟数仓的过去、现在和未来 郭罡 拓数派 @2022 OpenPie. All rights reserved. OpenPie Confidential 关于我 • 18年+基础软件⼀线经验 • 9年:Unix/Linux应⽤和内核开发、虚拟化(芯⽚KVM内核⽀持)、⾼速 ⽹络开发(NIC驱动、IB、DPDK、OVS offload)等. • 2年:分布式系统(存储和缓存)开发、云计算平台架构 2年:分布式系统(存储和缓存)开发、云计算平台架构. • 7年+:数据库内核开发 (HAWQ、PG、Greenplum、PieCloudDb). • 现在负责拓数派的整个研发管理. • 毕业于中国科学技术⼤学(专业语⾳识别). @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 • ⼀款云原⽣分布式虚拟数仓 • Data: @2022 OpenPie. All rights reserved. OpenPie Confidential 构建之路 (内核Only) • 第⼀步单机Postgres版本上实现存算分离 • 第⼆步分布式化 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建之路 - 数据存储 • 数据存储设计考虑 • S3访问友好(各种统计数据⽤于data0 码力 | 24 页 | 2.01 MB | 1 年前3
PieCloudDB Database 产品白皮书 > 岛 网 ioor mauaeaa 和 i Gartner: 数据库中国市场指南 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 Discoveries ” 数据计算,只为新发现」 为使命,旗下云原生虚拟数仓 PieCloudDB,运用全新 eMPP (elastic Massive Parallel Processing) 分布式技术,旨在为企业提供包含实时处理、 移级扩缩容、弹性计算、集成数据分析等强大功能的云上数据存储和计算引擎,助力企业实现数据价值最大化。 pieCloudDB 为企业构建坚如般石的虚拟数仓,以云资源 缩容, 提升数仓的敏捷性和弹性,助力企业降低数仓管理复杂度,实现数量级增加可计算数据空间的同时,数量级降低数仓 成本,打开无限数据计算空间,推进AVBI到下一个精度。PieCloudDB在eMPP分布式专利技术、服务器无感知 《(Serverless)及TDE等多项核心技术加持下,为企业构建高安全,高可靠,高在线 【坚如大石) 的云原生虚拟数仓, 助力企业实现数据价值最大化,更好地赋能业务发展并走0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书然而,随着数据量的不断攀升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 4 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 Discoveries ”「数据计算,只为新发现」为使命,旗下云原生虚拟数仓 PieCloudDB,运用全新 eMPP(elastic Massive Parallel Processing) 分布式技术,可将物理数仓整合到云原生数据 计算平台,根据数据授权动态创建虚拟数仓,按需灵活计算,打破数据孤岛,支撑更大模型所需的数据和计算。 PieCloudDB 为企业构建「坚如磐石」的虚拟数仓,以 元数据节点、计算节点、存储节点以及云原生管控平台节 点等共四种角色,具体说明如下: 1. 元数据节点: 提供元数据服务,如元数据存储共享、分布式锁、多版本管理、多集群并发、高可用以 及用户权限等功能; 2. 计算节点: 无状态节点(包括 Coordinator 和 Executer),主要负责接收用户请求和数据计算,支持0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB 的云原生之路发现」为使命,成立后的短短10个月时间内,完成了包括头部 产业基金、东吴证券、元禾重元和政府科创平台在内的连续三 轮战略融资。 旗下云原生分析型数据库 PieCloudDB,以云计算架构为设 计基础,首创全新 eMPP 分布式技术,帮助企业建立竞争壁垒 的同时,实现数据价值最大化,并在新基建中承担可靠和可控 的世界级云数据库底座。 IvorySQL开源数据库社区 2021 2022 当天即获得腾讯投资天使轮投资 成为 02 PieCloudDB 的架构特点 03 总结 04 IvorySQL开源数据库社区 PART 01 数据库的云原生远景 IvorySQL开源数据库社区 云解决了什么? 借助于云上分布式存储,解耦存储 借助于云上虚拟化技术和之上的 IaaS,解耦 计算 池化资源,按需使用 基础软件尤其是数据平台上云已是大势所趋 用户专注于使用,运维等工作交给 IaaS/SaaS 厂商 IvorySQL开源数据库社区 我们需要一个云原生大数据平台 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 扩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 传统分布式 MPP 架构痛点 IvorySQL开源数据库社区 PART 02 云原生数据库 PieCloudDB 简介 IvorySQL开源数据库社区 数据 计算 发现 数据:云上数据既是隔离也是连通。从安全的角度是隔离,同时具0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路成立后的短短10个月时间内,完成了包括头部产业基金、东吴证券、元 禾重元和政府科创平台在内的连续三轮战略融资。 旗下云原生分析型数据库PieCloudDB,以云计算架构为设计基础,首创 全新eMPP分布式技术,帮助企业建立竞争壁垒的同时,实现数据价值最 大化,并在新基建中承担可靠和可控的世界级云数据库底座。 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 @2022 OpenPie pieclouddb.com CONTENTS @2022 OpenPie. All rights reserved. OpenPie Confidential 云解决了什么? 借助于云上分布式存储,解耦存储 借助于云上虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据平台上云已是大势所趋 用户专注于使用,运维等工作交给IaaS/SaaS厂商 @2022 我们需要一个云原生大数据平台 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 扩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 传统分布式MPP架构痛点 @2022 OpenPie. All rights reserved. OpenPie Confidential 数据 计算 发现 数据:云上数据既是隔离也是连通。从安全的⾓度是隔离,同时具0 码力 | 44 页 | 1.64 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库基础数据计算领域的世界级高科技创新驱动机构 CONTENTS @2022 OpenPie. All rights reserved. OpenPie Confidential 云解决了什么? 借助于云上分布式存储,解耦存储 借助于云上虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据平台上云已是大势所趋 用户专注于使用,运维等工作交给IaaS/SaaS厂商 @2022 木桶效应 扩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 传统分布式MPP架构痛点 @2022 OpenPie. All rights reserved. OpenPie Confidential 一个云原生实时大数据平台 平台底层:eMPP 云原生分布式SQL数据库 我们的目标:支持多模,serverless的实时大数据平台 关于PieCloudDB 友好的用户接口(WebSql, ODBC/JDBC driver等). 云原生 • 弹性计算资源(横向和纵向)、极速调整 • 共享用户数据(典型如廉价对象存储) • 共享元数据 • MPP架构:分布式,海量数据并行处理 @2022 OpenPie. All rights reserved. OpenPie Confidential Postgres 生态 PieCloudDB 重新打造 PostgreSQL0 码力 | 45 页 | 1.32 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 木桶效应 扩缩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 我们需要一个云原生数据库 云解决了什么? 借助于云上分布式存储,解耦存储 借助于虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据库软件上云已是大势所趋 用户专注于使用,其他事情交给IaaS/SaaS厂商 上云 ≠ 云原生 计算&存储 弹性 智能化云原生平 ODBC/JDBC driver等). 云原生 云中立 • 弹性计算资源(横向纵向)、极速调整 • 多集群是另外一个弹性的维度 • 共享用户数据(如按需付费的对象存储) • 共享元数据 • MPP架构:分布式,海量数据并行处理 • e代表弹性(elastic) 完善的Postgres生态 为什么选择Postgres? • 关于Postgres • 公司中⽴,开源协议友好,国际⼀流⼯程⽔准的先进开源数据库0 码力 | 31 页 | 1.43 MB | 1 年前3
πDataCS赋能工业软件创新与实践:全面升级Hadoop⼤数据和Greenplum数仓⾄云原⽣数据平台 是⼀个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题, 是⼤数据技术中的基⽯。让用户可以在不了解分布式底层细节的情况下,开发 分布式程序,以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 算任务的时候按需启动,按照使用时间和规模计算成本。 eMPP分布式专利技术 在云上,PieCloudDB利用eMPP(elastic Massive Parallel Processing)架构,实现多集群并发执⾏任务。企业可灵活 进⾏扩缩容,随着负载的变化实现⾼效的伸缩,轻松应对 PB级海量数据。 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免⽹络延迟和数据移动,提⾼计算效率,保 ck Skipping等⾼级特性,全面满⾜各种复杂的分析查询需求。 @2024 OpenPie. All rights reserved. OpenPie Confidential eMPP分布式专利技术 架构阐述: 1. 云原⽣虚拟数仓,采用eMPP(弹性⼤规模并⾏计算)技术,把所有的计 算节点组成⼀个⼤的计算资源池,然后用户可以在计算资源池上创建虚 拟数仓; 2. 虚拟数仓是由0 码力 | 36 页 | 4.25 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS计算机和经济学,获得物理经济学双学位。(北大报道)研究生就读卡内基梅隆大学。(InfoQ报道) • 归国前就职于美国Oracle公司数据库服务器技术部门,是Oracle Cloud Control的分布式调动引擎的 主要贡献者之一。 • 因为参与Pivotal的拆分创建、C轮融资和IPO成功,以及主导的Greenplum产品在全球范围的开源影 响力,被《数字商业周刊》选为2019年度封面人物。(《数商周刊》报道) 特定领域(如神经网络) 私有云 Mundo元数据管理系统 统一Catalog 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是 大数据技术中的基石。让用户可以在不了解分布式底层细节的情况下,开发分布 式程序,以一种可靠、高效、可伸缩的方式进行数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可 任务的时候按需启动,按照使用时间和规模计算成本。 eMPP分布式专利技术 在云上,PieCloudDB利用eMPP(elastic Massive Parallel Processing)架构,实现多集群并发执行任务。企 业可灵活进行扩缩容,随着负载的变化实现高效的伸缩,轻松 应对PB级海量数据。 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多层 缓存结构,避免网络延迟和数据移动,提高计算效率,保证用0 码力 | 29 页 | 7.46 MB | 1 年前3
PieCloudDB Database V2.1 版本说明PieCloudDB 实现极速 Analyze,更快的生 成精确的查询规划统计信息,从而在查询时可以生成更优的查询计划。 • 全新的缓存机制:在 PieCloudDB 的计算层,各个计算节点针对元数据都设计了 多层缓存结构。 其中,针对元数据,PieCloudDB 实现了元数据层全新的缓存机制,有效减少了访问元 数据服务器带来的网络通信开销和元数据服务器的负载,提高元数据访问的速度。 • 可观察性增 优化:在元数据层通过快速过滤不需要 vacuum 的数据,从而实现 vacuum 加速。 • 存储引擎 简墨(JANM) 异常处理的优化: 避免各种异常情况下数据残留。 • 简墨(JANM)分布式处理增强:更高效的元数据采集和分发,提升用户查询响 应时间,降低系统负载 • 简墨(JANM)动态分配读取文件增强 dispatch 性能:此优化将动态的分配要 读取的文件给各个执行节点,降低查询的启动代价。 用户权限优化:通过更加清晰的 UI 设计,为用户提供一体化的权限管理 • 注册选项增加:增加了手机注册选项,用户现可选择通过手机或邮件进行用户注 册 • 稳定性优化: o SQL 结果集缓存优化 o 优化端到端访问控制管理和证书管理,增强安全能力 o 一键部署优化 • 数据洞察优化: o SQL 结果页面 UI 更新,界面更加简洁优雅。优化超长结果显示,可支持选中结0 码力 | 3 页 | 257.15 KB | 1 年前3
共 18 条
- 1
- 2













