PieCloudDB:云原生分布式虚拟数仓的诞生之旅PieCloudDB:云原⽣分布式 虚拟数仓的过去、现在和未来 郭罡 拓数派 @2022 OpenPie. All rights reserved. OpenPie Confidential 关于我 • 18年+基础软件⼀线经验 • 9年:Unix/Linux应⽤和内核开发、虚拟化(芯⽚KVM内核⽀持)、⾼速 ⽹络开发(NIC驱动、IB、DPDK、OVS offload)等. • 2年:分布式系统(存储和缓存)开发、云计算平台架构 毕业于中国科学技术⼤学(专业语⾳识别). @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 • ⼀款云原⽣分布式虚拟数仓 • Data: Shared Storage (S3/HDFS/NAS) • Meta: Shared on NoSQL (当前是FoundationDB) • Postgres⽣态 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建之路 (内核Only) • 第⼀步单机Postgres版本上实现存算分离 • 第⼆步分布式化 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建之路 - 数据存储 • 数据存储设计考虑 • S3访问友好(各种统计数据⽤于data0 码力 | 24 页 | 2.01 MB | 1 年前3
PieCloudDB Database 产品白皮书 Gartner: 数据库中国市场指南 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时,所有机器同时并行计算,理论上最 把计算时间降低到单机部署的 Discoveries ” 数据计算,只为新发现」 为使命,旗下云原生虚拟数仓 PieCloudDB,运用全新 eMPP (elastic Massive Parallel Processing) 分布式技术,旨在为企业提供包含实时处理、 移级扩缩容、弹性计算、集成数据分析等强大功能的云上数据存储和计算引擎,助力企业实现数据价值最大化。 pieCloudDB 为企业构建坚如般石的虚拟数仓,以云资 扩缩容, 提升数仓的敏捷性和弹性,助力企业降低数仓管理复杂度,实现数量级增加可计算数据空间的同时,数量级降低数仓 成本,打开无限数据计算空间,推进AVBI到下一个精度。PieCloudDB在eMPP分布式专利技术、服务器无感知 《(Serverless)及TDE等多项核心技术加持下,为企业构建高安全,高可靠,高在线 【坚如大石) 的云原生虚拟数仓, 助力企业实现数据价值最大化,更好地赋能业务发展并0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书了一系列的瓶颈: 4 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时,所有机器同时并行计算,理论上最高可以 把计算时间降低到单机部署的 New Discoveries ”「数据计算,只为新发现」为使命,旗下云原生虚拟数仓 PieCloudDB,运用全新 eMPP(elastic Massive Parallel Processing) 分布式技术,可将物理数仓整合到云原生数据 计算平台,根据数据授权动态创建虚拟数仓,按需灵活计算,打破数据孤岛,支撑更大模型所需的数据和计算。 PieCloudDB 为企业构建「坚如磐石」的虚拟数仓, 核心服务层,提供了并行数据处理能力,拥有元数据节点、计算节点、存储节点以及云原生管控平台节 点等共四种角色,具体说明如下: 1. 元数据节点: 提供元数据服务,如元数据存储共享、分布式锁、多版本管理、多集群并发、高可用以 及用户权限等功能; 2. 计算节点: 无状态节点(包括 Coordinator 和 Executer),主要负责接收用户请求和数据计算,支持0 码力 | 17 页 | 2.02 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现拓数派 技术专家 云原生虚拟数仓PieCloudDB 大连理工大学软件工程本科 pgsql@qiupf.dev 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发 PieCloudDB 分布式架构简介 ETL 简述 PieCloudDB ETL方案设计 Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 03 04 eMPP架构 存算分离,元数据/缓存/计算/云存储 04 各模块可以独立伸缩,模块间接口统一 每一组计算节点组成一个集群,多集群共享 元数据和存储系统 计算节点高度并行 05 兼容 PostgreSQL 生态 PieCloudDB eMPP 分布式架构 导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 Table产生的 raw 数据,转换为内部行格式,生成需要的各列 CREATE FUNCTION formatter(input bytea) RETURNS user_type …; SELECT meta, raw FROM foreign_table LATERAL JOIN formatter(raw); • INSERT 模式,步骤3 对解析出的列执行数据转换操作 SELECT r.a, r.b+r0 码力 | 29 页 | 5.24 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 木桶效应 扩缩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 我们需要一个云原生数据库 云解决了什么? 借助于云上分布式存储,解耦存储 借助于虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据库软件上云已是大势所趋 用户专注于使用,其他事情交给IaaS/SaaS厂商 上云 ≠ 云原生 计算&存储 弹性 智能化云原生平 ODBC/JDBC driver等). 云原生 云中立 • 弹性计算资源(横向纵向)、极速调整 • 多集群是另外一个弹性的维度 • 共享用户数据(如按需付费的对象存储) • 共享元数据 • MPP架构:分布式,海量数据并行处理 • e代表弹性(elastic) 完善的Postgres生态 为什么选择Postgres? • 关于Postgres • 公司中⽴,开源协议友好,国际⼀流⼯程⽔准的先进开源数据库0 码力 | 31 页 | 1.43 MB | 1 年前3
πDataCS赋能工业软件创新与实践是⼀个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题, 是⼤数据技术中的基⽯。让用户可以在不了解分布式底层细节的情况下,开发 分布式程序,以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 等都需要额外的组件,应对不同的场景需要安装对应的组件和依赖。 ⽣ 云原⽣存算分离架构 运用元数据-计算-数据分离的三层架构,实现云上存储资源与 计算资源的独立管理。云上计算资源可弹性分配,有查询计 算任务的时候按需启动,按照使用时间和规模计算成本。 eMPP分布式专利技术 在云上,PieCloudDB利用eMPP(elastic Massive Parallel Processing)架构,实现多集群并发执⾏任务。企业可灵活 进⾏扩缩容,随着负载的变化实现⾼效的伸缩,轻松应对 OpenPie Confidential eMPP分布式专利技术 架构阐述: 1. 云原⽣虚拟数仓,采用eMPP(弹性⼤规模并⾏计算)技术,把所有的计 算节点组成⼀个⼤的计算资源池,然后用户可以在计算资源池上创建虚 拟数仓; 2. 虚拟数仓是由执⾏器和协调器等资源组成,协调器和执⾏器在操作系统 层面来看,他们就是⼀个个的进程,这些进程分布在不同的计算节点上; 3. 如图中示例,业务应用0 码力 | 36 页 | 4.25 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS计算机和经济学,获得物理经济学双学位。(北大报道)研究生就读卡内基梅隆大学。(InfoQ报道) • 归国前就职于美国Oracle公司数据库服务器技术部门,是Oracle Cloud Control的分布式调动引擎的 主要贡献者之一。 • 因为参与Pivotal的拆分创建、C轮融资和IPO成功,以及主导的Greenplum产品在全球范围的开源影 响力,被《数字商业周刊》选为2019年度封面人物。(《数商周刊》报道) 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是 大数据技术中的基石。让用户可以在不了解分布式底层细节的情况下,开发分布 式程序,以一种可靠、高效、可伸缩的方式进行数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 等都需要额外的组件,应对不同的场景需要安装对应的组件和依赖。 生 云原生存算分离架构 运用元数据-计算-数据分离的三层架构,实现云上存储资源与 计算资源的独立管理。云上计算资源可弹性分配,有查询计算 任务的时候按需启动,按照使用时间和规模计算成本。 eMPP分布式专利技术 在云上,PieCloudDB利用eMPP(elastic Massive Parallel Processing)架构,实现多集群并发执行任务。企 业可灵活进行扩缩容,随着负载的变化实现高效的伸缩,轻松0 码力 | 29 页 | 7.46 MB | 1 年前3
PieCloudDB Database V2.1 版本说明到连接操作之前去执行,极大的减 少连接操作需要处理的数据量,使得查询性能显著提升。 • 实现了 Block Skipping 的优化机制:数据库运行查询语句时,通过计算每个块 (block)中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性 能。 • 极速 Analyze(Smart Analyze): PieCloudDB 实现极速 Analyze,更快的生 成精确 优化:在元数据层通过快速过滤不需要 vacuum 的数据,从而实现 vacuum 加速。 • 存储引擎 简墨(JANM) 异常处理的优化: 避免各种异常情况下数据残留。 • 简墨(JANM)分布式处理增强:更高效的元数据采集和分发,提升用户查询响 应时间,降低系统负载 • 简墨(JANM)动态分配读取文件增强 dispatch 性能:此优化将动态的分配要 读取的文件给各个执行节点,降低查询的启动代价。0 码力 | 3 页 | 257.15 KB | 1 年前3
大模型时代下向量数据库的设计与应用从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法 PieCloudVector • 基于postgres打造的数据库内核 • 单机或分布式部署 • 支持完整的ACID • SQL进行向量搜索 • 支持向量标量混合查询 PieCloudVector • 使用faiss开源算法库做为向量搜索引擎 • 支持主流的ann算法,如ivf和hnsw等 • 支持二进制索引 • 支持多级索引如HNSW+IVF等 • CPU多核并行/GPU加速 PieCloudVector • Faiss与postgres内核对接 - 基础接口 • 增加向量列类型用于基本的加载与卸载 • 实现向量距离运算符 • 实现向量近似搜索的索引,调用faiss PieCloudVector • Faiss与postgres内核对接 - 数据可见性 • fa0 码力 | 28 页 | 1.69 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库基础数据计算领域的世界级高科技创新驱动机构 CONTENTS @2022 OpenPie. All rights reserved. OpenPie Confidential 云解决了什么? 借助于云上分布式存储,解耦存储 借助于云上虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据平台上云已是大势所趋 用户专注于使用,运维等工作交给IaaS/SaaS厂商 @2022 木桶效应 扩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 传统分布式MPP架构痛点 @2022 OpenPie. All rights reserved. OpenPie Confidential 一个云原生实时大数据平台 平台底层:eMPP 云原生分布式SQL数据库 我们的目标:支持多模,serverless的实时大数据平台 关于PieCloudDB 友好的用户接口(WebSql, ODBC/JDBC driver等). 云原生 • 弹性计算资源(横向和纵向)、极速调整 • 共享用户数据(典型如廉价对象存储) • 共享元数据 • MPP架构:分布式,海量数据并行处理 @2022 OpenPie. All rights reserved. OpenPie Confidential Postgres 生态 PieCloudDB 重新打造 PostgreSQL0 码力 | 45 页 | 1.32 MB | 1 年前3
共 16 条
- 1
- 2













