PieCloudDB:云原生分布式虚拟数仓的诞生之旅PieCloudDB:云原⽣分布式 虚拟数仓的过去、现在和未来 郭罡 拓数派 @2022 OpenPie. All rights reserved. OpenPie Confidential 关于我 • 18年+基础软件⼀线经验 • 9年:Unix/Linux应⽤和内核开发、虚拟化(芯⽚KVM内核⽀持)、⾼速 ⽹络开发(NIC驱动、IB、DPDK、OVS offload)等. • 2年:分布式系统(存储和缓存)开发、云计算平台架构 毕业于中国科学技术⼤学(专业语⾳识别). @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 • ⼀款云原⽣分布式虚拟数仓 • Data: Shared Storage (S3/HDFS/NAS) • Meta: Shared on NoSQL (当前是FoundationDB) • Postgres⽣态 • @2022 OpenPie. All rights reserved. OpenPie Confidential 构建之路 (内核Only) • 第⼀步单机Postgres版本上实现存算分离 • 第⼆步分布式化 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建之路 - 数据存储 • 数据存储设计考虑 • S3访问友好(各种统计数据⽤于data0 码力 | 24 页 | 2.01 MB | 1 年前3
PieCloudDB Database 产品白皮书 Gartner: 数据库中国市场指南 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时,所有机器同时并行计算,理论上最 把计算时间降低到单机部署的 Discoveries ” 数据计算,只为新发现」 为使命,旗下云原生虚拟数仓 PieCloudDB,运用全新 eMPP (elastic Massive Parallel Processing) 分布式技术,旨在为企业提供包含实时处理、 移级扩缩容、弹性计算、集成数据分析等强大功能的云上数据存储和计算引擎,助力企业实现数据价值最大化。 pieCloudDB 为企业构建坚如般石的虚拟数仓,以云资源 提升数仓的敏捷性和弹性,助力企业降低数仓管理复杂度,实现数量级增加可计算数据空间的同时,数量级降低数仓 成本,打开无限数据计算空间,推进AVBI到下一个精度。PieCloudDB在eMPP分布式专利技术、服务器无感知 《(Serverless)及TDE等多项核心技术加持下,为企业构建高安全,高可靠,高在线 【坚如大石) 的云原生虚拟数仓, 助力企业实现数据价值最大化,更好地赋能业务发展并走向绿色0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书数据库解决方案迎来 了一系列的瓶颈: 4 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时,所有机器同时并行计算,理论上最高可以 把计算时间降低到单机部署的 Discoveries ”「数据计算,只为新发现」为使命,旗下云原生虚拟数仓 PieCloudDB,运用全新 eMPP(elastic Massive Parallel Processing) 分布式技术,可将物理数仓整合到云原生数据 计算平台,根据数据授权动态创建虚拟数仓,按需灵活计算,打破数据孤岛,支撑更大模型所需的数据和计算。 PieCloudDB 为企业构建「坚如磐石」的虚拟数仓,以 支持部署在物理服务器、虚拟机以及容 器中,同时也提供 PieCloudDB 公有云 SaaS 服务。 数据处理层 PieCloudDB 核心服务层,提供了并行数据处理能力,拥有元数据节点、计算节点、存储节点以及云原生管控平台节 点等共四种角色,具体说明如下: 1. 元数据节点: 提供元数据服务,如元数据存储共享、分布式锁、多版本管理、多集群并发、高可用以0 码力 | 17 页 | 2.02 MB | 1 年前3
πDataCS赋能工业软件创新与实践2023 引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会 重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原⽣虚拟数仓 拓数派基于阿里云构建公共云数据仓库服务 正式上线 6月 上榜 EqualOcean 2022年源自中国值 得关注的新锐全球化科技品牌 与东吴证券在数仓虚拟化和信创领域展开试点合作 12月 创始⼈冯雷再度荣登数字商业周刊“年度智造中国商业领袖” 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派⼊选中国信通院“铸基计划”「⾼质量数字化 转型产品及服务全景图」 拓数派再次携WAIC创建智能驾驶科技分会 杭州萧⼭区政府“⼀事⼀议”支持政策获 批 9月 拓数派上榜《毕马威中国-未来独角兽 ⼈⼯智能创新 双30企业(长江三角洲地区)》 10月 ⾔ 基 础 模 型 和 私 域 数 据 结 合 开 发 垂 直 应 用 • CMU战略合作⼤模型基础理论,训练合作⼀事⼀议 πCloudDB πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (⼤模型)机器学习 向量数据计算 ⼤模型训练… 自研简墨存储 … 统⼀数据格式 | ⼀份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB 的云原生之路发现」为使命,成立后的短短10个月时间内,完成了包括头部 产业基金、东吴证券、元禾重元和政府科创平台在内的连续三 轮战略融资。 旗下云原生分析型数据库 PieCloudDB,以云计算架构为设 计基础,首创全新 eMPP 分布式技术,帮助企业建立竞争壁垒 的同时,实现数据价值最大化,并在新基建中承担可靠和可控 的世界级云数据库底座。 IvorySQL开源数据库社区 2021 2022 当天即获得腾讯投资天使轮投资 成为 构建坚如磐石的 eMPP 云原生数仓 3月 2023拓数派战略暨新产品发布会 重磅发布 PieCloudDB「云上云」版 云原生数仓虚拟化引领数据计算时代到来 拓数派基于阿里云构建公共云数据仓库服务 正式上线 IvorySQL开源数据库社区 免费试用 PieCloudDB 云上云版:https://app.pieclouddb.com IvorySQL开源数据库社区 目录 数据库的云原生远景 02 PieCloudDB 的架构特点 03 总结 04 IvorySQL开源数据库社区 PART 01 数据库的云原生远景 IvorySQL开源数据库社区 云解决了什么? 借助于云上分布式存储,解耦存储 借助于云上虚拟化技术和之上的 IaaS,解耦 计算 池化资源,按需使用 基础软件尤其是数据平台上云已是大势所趋 用户专注于使用,运维等工作交给 IaaS/SaaS 厂商 IvorySQL开源数据库社区0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路成立后的短短10个月时间内,完成了包括头部产业基金、东吴证券、元 禾重元和政府科创平台在内的连续三轮战略融资。 旗下云原生分析型数据库PieCloudDB,以云计算架构为设计基础,首创 全新eMPP分布式技术,帮助企业建立竞争壁垒的同时,实现数据价值最 大化,并在新基建中承担可靠和可控的世界级云数据库底座。 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 @2022 OpenPie 拓数派基于阿里云构建公共云数据仓库服务 正式上线 @2022 OpenPie. All rights reserved. OpenPie Confidential https://app.pieclouddb.com CONTENTS @2022 OpenPie. All rights reserved. OpenPie Confidential 云解决了什么? 借助于云上分布式存储,解耦存储 借 我们需要一个云原生大数据平台 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 扩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 传统分布式MPP架构痛点 @2022 OpenPie. All rights reserved. OpenPie Confidential 数据 计算 发现 数据:云上数据既是隔离也是连通。从安全的⾓度是隔离,同时具0 码力 | 44 页 | 1.64 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS)浸染在数学、物理、 计算机和经济学,获得物理经济学双学位。(北大报道)研究生就读卡内基梅隆大学。(InfoQ报道) • 归国前就职于美国Oracle公司数据库服务器技术部门,是Oracle Cloud Control的分布式调动引擎的 主要贡献者之一。 • 因为参与Pivotal的拆分创建、C轮融资和IPO成功,以及主导的Greenplum产品在全球范围的开源影 响力,被《数字商业周 2023引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会 重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原生虚拟数仓 拓数派基于阿里云构建公共云数据仓库服务 正式上线 6月 上榜 EqualOcean 2022年源自中国值 得关注的新锐全球化科技品牌 与东吴证券在数仓虚拟化和信创领域展开试点合作 12月 创始人冯雷再度荣登数字商业周刊“年度智造中国商业领袖” 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派入选中国信通院“铸基计划”「高质量数字 化转型产品及服务全景图」 拓数派再次携WAIC创建智能驾驶科技分会 杭州萧山区政府“一事一议”支持政策获 批 9月 拓数派上榜《毕马威中国-未来独角兽 人工智能创新双 30企业(长江三角洲地区)》 10月0 码力 | 29 页 | 7.46 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库基础数据计算领域的世界级高科技创新驱动机构 CONTENTS @2022 OpenPie. All rights reserved. OpenPie Confidential 云解决了什么? 借助于云上分布式存储,解耦存储 借助于云上虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据平台上云已是大势所趋 用户专注于使用,运维等工作交给IaaS/SaaS厂商 @2022 木桶效应 扩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 传统分布式MPP架构痛点 @2022 OpenPie. All rights reserved. OpenPie Confidential 一个云原生实时大数据平台 平台底层:eMPP 云原生分布式SQL数据库 我们的目标:支持多模,serverless的实时大数据平台 关于PieCloudDB 友好的用户接口(WebSql, ODBC/JDBC driver等). 云原生 • 弹性计算资源(横向和纵向)、极速调整 • 共享用户数据(典型如廉价对象存储) • 共享元数据 • MPP架构:分布式,海量数据并行处理 @2022 OpenPie. All rights reserved. OpenPie Confidential Postgres 生态 PieCloudDB 重新打造 PostgreSQL0 码力 | 45 页 | 1.32 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 木桶效应 扩缩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 我们需要一个云原生数据库 云解决了什么? 借助于云上分布式存储,解耦存储 借助于虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据库软件上云已是大势所趋 用户专注于使用,其他事情交给IaaS/SaaS厂商 上云 ≠ 云原生 计算&存储 弹性 智能化云原生平 ODBC/JDBC driver等). 云原生 云中立 • 弹性计算资源(横向纵向)、极速调整 • 多集群是另外一个弹性的维度 • 共享用户数据(如按需付费的对象存储) • 共享元数据 • MPP架构:分布式,海量数据并行处理 • e代表弹性(elastic) 完善的Postgres生态 为什么选择Postgres? • 关于Postgres • 公司中⽴,开源协议友好,国际⼀流⼯程⽔准的先进开源数据库0 码力 | 31 页 | 1.43 MB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现以关系型数据库为基础的数据仓库很难适应云环境 @2022 OpenPie. All rights reserved. OpenPie Confidential 计算引擎方面 • 完备的SQL语言支持 • 高效的分布式计算能力 • 完备的事务支持,隔离性 一致性 原 子性 公有云特性方面 • 存算分离 • 弹性的计算集群 • 只为必要的计算付费 @2022 OpenPie. All rights reserved OpenPie Confidential • 全面的逻辑优化(谓词下推,子查询子链接提升,外连接消除) • 纯粹基于代价的物理优化 • 全面的数据分布特性描述,分布式代价估算,高效分布式表连接 • 多阶段的聚集 专门为复杂查询设计的优化器 分布式环境高效执行器 • 多阶段执行模型 • 流式数据重分布 @2022 OpenPie. All rights reserved. OpenPie Confidential Segment节点不直接访问系统表,事务和锁 • 在扩张时只需要在新的虚拟机节点上部署二进制并向元数据服务注册 @2022 OpenPie. All rights reserved. OpenPie Confidential • Master 节点和 FoundationDB 通过事务的方式协同实现了分布式的事务和锁 • 系统表以 mstore 的方式存储在 FoundationDB 上 • Master节点本地不持有任何全局状态0 码力 | 43 页 | 1.14 MB | 1 年前3
共 19 条
- 1
- 2













