 云原生虚拟数仓PieCloudDB Database产品白皮书。数据被称为数字经济时代的“石 油”,如同石油驱动了工业化时代的进步,大数据将推动智能化与数字化时代的发展。 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算(Data Computing)的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 化转型面临巨大挑战 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时,所有机器同时并行计算,理论上最高可以 把计算时间降低到单机部署的 1/n(n为机器数量),节省了海量数据的处理时间。 传统数据仓库的计算和存储是紧密耦合的,计算资源和存储资源按某一比例强绑定,因此用户在扩容时,必须同时扩 容计算资源和存储资源,在扩缩容、运 本 高 昂 传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统数据仓库架构存储和计算的紧密耦合,往往需要企业花费巨大的运维和时间成本,且操作繁 琐。 木 桶 效 应 传统 MPP 数据仓库架构存在“木桶效应”0 码力 | 17 页 | 2.02 MB | 1 年前3 云原生虚拟数仓PieCloudDB Database产品白皮书。数据被称为数字经济时代的“石 油”,如同石油驱动了工业化时代的进步,大数据将推动智能化与数字化时代的发展。 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算(Data Computing)的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 化转型面临巨大挑战 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时,所有机器同时并行计算,理论上最高可以 把计算时间降低到单机部署的 1/n(n为机器数量),节省了海量数据的处理时间。 传统数据仓库的计算和存储是紧密耦合的,计算资源和存储资源按某一比例强绑定,因此用户在扩容时,必须同时扩 容计算资源和存储资源,在扩缩容、运 本 高 昂 传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统数据仓库架构存储和计算的紧密耦合,往往需要企业花费巨大的运维和时间成本,且操作繁 琐。 木 桶 效 应 传统 MPP 数据仓库架构存在“木桶效应”0 码力 | 17 页 | 2.02 MB | 1 年前3
 PieCloudDB Database 产品白皮书 击需视各2nk 2n 2n6 201 2018 20192070 20717022 2973 2024 2025 1DC:全球数据圈预测 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算 (Data Computing) 的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 化转型面临巨大挑 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时,所有机器同时并行计算,理论上最 把计算时间降低到单机部署的 1/n (n为机器数量) ,节省了海量数据的处理时间。 ,节省了海量数据的处理时间。 传统数据仓库架构 然而,随着数据量的不断尝升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 传统数据仓库的计算和存情是| 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一, 报表结! 传统数据仓库无法及时扩 导致大数据系统天 价值所带来的商业机会 用户在扩 必须同时扩 企业遇到负 时刻或需要紧急得到某个 法弹0 码力 | 17 页 | 2.68 MB | 1 年前3 PieCloudDB Database 产品白皮书 击需视各2nk 2n 2n6 201 2018 20192070 20717022 2973 2024 2025 1DC:全球数据圈预测 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算 (Data Computing) 的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 化转型面临巨大挑 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时,所有机器同时并行计算,理论上最 把计算时间降低到单机部署的 1/n (n为机器数量) ,节省了海量数据的处理时间。 ,节省了海量数据的处理时间。 传统数据仓库架构 然而,随着数据量的不断尝升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 传统数据仓库的计算和存情是| 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一, 报表结! 传统数据仓库无法及时扩 导致大数据系统天 价值所带来的商业机会 用户在扩 必须同时扩 企业遇到负 时刻或需要紧急得到某个 法弹0 码力 | 17 页 | 2.68 MB | 1 年前3
 云原生虚拟数仓 PieCloudDB ETL 方案设计与实现-> PieCloudDB 增量数据实时 cdc 演示 01 02 03 04 eMPP架构 存算分离,元数据/缓存/计算/云存储 01 02 03 04 各模块可以独立伸缩,模块间接口统一 每一组计算节点组成一个集群,多集群共享 元数据和存储系统 计算节点高度并行 05 兼容 PostgreSQL 生态 PieCloudDB eMPP 分布式架构 导出 (Extract) 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式 Table产生的 raw 数据,转换为内部行格式,生成需要的各列 CREATE FUNCTION formatter(input bytea) RETURNS user_type …; SELECT meta, raw FROM foreign_table LATERAL JOIN formatter(raw); • INSERT 模式,步骤3 对解析出的列执行数据转换操作 SELECT r.a, r.b+r0 码力 | 29 页 | 5.24 MB | 1 年前3 云原生虚拟数仓 PieCloudDB ETL 方案设计与实现-> PieCloudDB 增量数据实时 cdc 演示 01 02 03 04 eMPP架构 存算分离,元数据/缓存/计算/云存储 01 02 03 04 各模块可以独立伸缩,模块间接口统一 每一组计算节点组成一个集群,多集群共享 元数据和存储系统 计算节点高度并行 05 兼容 PostgreSQL 生态 PieCloudDB eMPP 分布式架构 导出 (Extract) 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式 Table产生的 raw 数据,转换为内部行格式,生成需要的各列 CREATE FUNCTION formatter(input bytea) RETURNS user_type …; SELECT meta, raw FROM foreign_table LATERAL JOIN formatter(raw); • INSERT 模式,步骤3 对解析出的列执行数据转换操作 SELECT r.a, r.b+r0 码力 | 29 页 | 5.24 MB | 1 年前3
 PieCloudDB:云原生分布式虚拟数仓的诞生之旅18年+基础软件⼀线经验 • 9年:Unix/Linux应⽤和内核开发、虚拟化(芯⽚KVM内核⽀持)、⾼速 ⽹络开发(NIC驱动、IB、DPDK、OVS offload)等. • 2年:分布式系统(存储和缓存)开发、云计算平台架构. • 7年+:数据库内核开发 (HAWQ、PG、Greenplum、PieCloudDb). • 现在负责拓数派的整个研发管理. • 毕业于中国科学技术⼤学(专业语⾳识别) reserved. OpenPie Confidential PieCloudDB简介 (cont.) • 2022年10.24发布1.0版本,技术和产品上实现了云原⽣. • 计算和存储分离:弹性计算 & 弹性存储. • 计算和存储都:按需付费. • 多租⼾隔离. • 2023年3.14上公有云(阿⾥云). • 更多功能增强 @2022 OpenPie. All rights reserved. OpenPie OpenPie Confidential PieCloudDB简介 (cont.) • 为什么我们觉得数据库云原⽣很重要? • 破除数据隔离(⼀份数据就好). • 否则⼀致性问题、也浪费存储空间. • 数据作为新的⽣产要素要流通起来才有更⼤价值. • 参考云被认同的时间线. • 弹性伸缩(成本 & 性能 & 灵活). • 云对于⼩中⼤客⼾都有价值. @2022 OpenPie. All rights0 码力 | 24 页 | 2.01 MB | 1 年前3 PieCloudDB:云原生分布式虚拟数仓的诞生之旅18年+基础软件⼀线经验 • 9年:Unix/Linux应⽤和内核开发、虚拟化(芯⽚KVM内核⽀持)、⾼速 ⽹络开发(NIC驱动、IB、DPDK、OVS offload)等. • 2年:分布式系统(存储和缓存)开发、云计算平台架构. • 7年+:数据库内核开发 (HAWQ、PG、Greenplum、PieCloudDb). • 现在负责拓数派的整个研发管理. • 毕业于中国科学技术⼤学(专业语⾳识别) reserved. OpenPie Confidential PieCloudDB简介 (cont.) • 2022年10.24发布1.0版本,技术和产品上实现了云原⽣. • 计算和存储分离:弹性计算 & 弹性存储. • 计算和存储都:按需付费. • 多租⼾隔离. • 2023年3.14上公有云(阿⾥云). • 更多功能增强 @2022 OpenPie. All rights reserved. OpenPie OpenPie Confidential PieCloudDB简介 (cont.) • 为什么我们觉得数据库云原⽣很重要? • 破除数据隔离(⼀份数据就好). • 否则⼀致性问题、也浪费存储空间. • 数据作为新的⽣产要素要流通起来才有更⼤价值. • 参考云被认同的时间线. • 弹性伸缩(成本 & 性能 & 灵活). • 云对于⼩中⼤客⼾都有价值. @2022 OpenPie. All rights0 码力 | 24 页 | 2.01 MB | 1 年前3
 云原生数据库 PieCloudDB eMPP架构设计与实现• 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 云解决了什么? 借助于云上分布式存储,解耦存储 借助于虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据库软件上云已是大势所趋 用户专注于使用,其他事情交给IaaS/SaaS厂商 上云 ≠ 云原生 计算&存储 弹性 智能化云原生平 台 多租户隔离 • 存储资源和计算资源:分离和隔离 • 资源伸缩快速简单 • 计算、存储:按需付费 • 智能管理,复杂交给*aaS厂商 多集群是另外一个弹性的维度 • 共享用户数据(如按需付费的对象存储) • 共享元数据 • MPP架构:分布式,海量数据并行处理 • e代表弹性(elastic) 完善的Postgres生态 为什么选择Postgres? • 关于Postgres • 公司中⽴,开源协议友好,国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展,插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持 (原⽣或者插件)0 码力 | 31 页 | 1.43 MB | 1 年前3 云原生数据库 PieCloudDB eMPP架构设计与实现• 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 云解决了什么? 借助于云上分布式存储,解耦存储 借助于虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据库软件上云已是大势所趋 用户专注于使用,其他事情交给IaaS/SaaS厂商 上云 ≠ 云原生 计算&存储 弹性 智能化云原生平 台 多租户隔离 • 存储资源和计算资源:分离和隔离 • 资源伸缩快速简单 • 计算、存储:按需付费 • 智能管理,复杂交给*aaS厂商 多集群是另外一个弹性的维度 • 共享用户数据(如按需付费的对象存储) • 共享元数据 • MPP架构:分布式,海量数据并行处理 • e代表弹性(elastic) 完善的Postgres生态 为什么选择Postgres? • 关于Postgres • 公司中⽴,开源协议友好,国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展,插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持 (原⽣或者插件)0 码力 | 31 页 | 1.43 MB | 1 年前3
 兼容龙蜥的云原生大模型数据计算系统:πDataCS驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优化计算 大模型训练… 自 研 简 墨 存 储 … 统一数据格式 | 一份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 | 特定领域(如神经网络) 私有云 Mundo元数据管理系统 统一Catalog 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是 大数据技术中的基石。让用户可以在不了解分布式底层细节的情况下,开发分布 式程序,以一种可靠、高效、可伸缩的方式进行数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 等都需要额外的组件,应对不同的场景需要安装对应的组件和依赖。 生态丰富,对结构化数据、半结构化数据以及非结构化数据都支持,可以很好的 完成各种业务场景的数据处理需求。但是对于开发的要求比较高,需要掌握多种0 码力 | 29 页 | 7.46 MB | 1 年前3 兼容龙蜥的云原生大模型数据计算系统:πDataCS驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优化计算 大模型训练… 自 研 简 墨 存 储 … 统一数据格式 | 一份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 | 特定领域(如神经网络) 私有云 Mundo元数据管理系统 统一Catalog 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是 大数据技术中的基石。让用户可以在不了解分布式底层细节的情况下,开发分布 式程序,以一种可靠、高效、可伸缩的方式进行数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 等都需要额外的组件,应对不同的场景需要安装对应的组件和依赖。 生态丰富,对结构化数据、半结构化数据以及非结构化数据都支持,可以很好的 完成各种业务场景的数据处理需求。但是对于开发的要求比较高,需要掌握多种0 码力 | 29 页 | 7.46 MB | 1 年前3
 πDataCS赋能工业软件创新与实践⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎数据计算,AI数学模型、数据和 计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 ,赋能⾏业AI场景应用。 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 πCloudDB πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (⼤模型)机器学习 向量数据计算 ⼤模型训练… 自研简墨存储 … 统⼀数据格式 | ⼀份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 | 特定领域(如神经⽹络) 私有云 Mundo元数据管理系统 统⼀Catalog @2024 OpenPie. All rights 原⽣数据平台 是⼀个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题, 是⼤数据技术中的基⽯。让用户可以在不了解分布式底层细节的情况下,开发 分布式程序,以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 等都需要额外0 码力 | 36 页 | 4.25 MB | 1 年前3 πDataCS赋能工业软件创新与实践⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎数据计算,AI数学模型、数据和 计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 ,赋能⾏业AI场景应用。 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 πCloudDB πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (⼤模型)机器学习 向量数据计算 ⼤模型训练… 自研简墨存储 … 统⼀数据格式 | ⼀份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 | 特定领域(如神经⽹络) 私有云 Mundo元数据管理系统 统⼀Catalog @2024 OpenPie. All rights 原⽣数据平台 是⼀个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题, 是⼤数据技术中的基⽯。让用户可以在不了解分布式底层细节的情况下,开发 分布式程序,以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 等都需要额外0 码力 | 36 页 | 4.25 MB | 1 年前3
 PieCloudDB Database V2.1 版本说明到连接操作之前去执行,极大的减 少连接操作需要处理的数据量,使得查询性能显著提升。 • 实现了 Block Skipping 的优化机制:数据库运行查询语句时,通过计算每个块 (block)中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性 能。 • 极速 Analyze(Smart Analyze): PieCloudDB 实现极速 Analyze,更快的生 成精确 加速。 • 存储引擎 简墨(JANM) 异常处理的优化: 避免各种异常情况下数据残留。 • 简墨(JANM)分布式处理增强:更高效的元数据采集和分发,提升用户查询响 应时间,降低系统负载 • 简墨(JANM)动态分配读取文件增强 dispatch 性能:此优化将动态的分配要 读取的文件给各个执行节点,降低查询的启动代价。 • 原生格式存储:在 HDFS/NAS HDFS/NAS 系统上支持原生存储格式。 • 对 Orca 的支持:PieCloudDB 支持查询优化器 Orca。Orca 是一款开源的、基 于 Cascades 模型的模块化查询优化器,帮助用户对 SQL 进行优化,生成高效的查询计 划。 • 支持超大数据量字段 • 支持快速 ETL/ELT: Kafka 流数据导入支持,copy 性能大幅提升。0 码力 | 3 页 | 257.15 KB | 1 年前3 PieCloudDB Database V2.1 版本说明到连接操作之前去执行,极大的减 少连接操作需要处理的数据量,使得查询性能显著提升。 • 实现了 Block Skipping 的优化机制:数据库运行查询语句时,通过计算每个块 (block)中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性 能。 • 极速 Analyze(Smart Analyze): PieCloudDB 实现极速 Analyze,更快的生 成精确 加速。 • 存储引擎 简墨(JANM) 异常处理的优化: 避免各种异常情况下数据残留。 • 简墨(JANM)分布式处理增强:更高效的元数据采集和分发,提升用户查询响 应时间,降低系统负载 • 简墨(JANM)动态分配读取文件增强 dispatch 性能:此优化将动态的分配要 读取的文件给各个执行节点,降低查询的启动代价。 • 原生格式存储:在 HDFS/NAS HDFS/NAS 系统上支持原生存储格式。 • 对 Orca 的支持:PieCloudDB 支持查询优化器 Orca。Orca 是一款开源的、基 于 Cascades 模型的模块化查询优化器,帮助用户对 SQL 进行优化,生成高效的查询计 划。 • 支持超大数据量字段 • 支持快速 ETL/ELT: Kafka 流数据导入支持,copy 性能大幅提升。0 码力 | 3 页 | 257.15 KB | 1 年前3
 大模型时代下向量数据库的设计与应用与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 P10 (filtered) P2 (filtered) 向量数据库 • 存储向量和原始实体(文字/图像/语音)及元信息,并将它们关联起来 • 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法 PieCloudVector • 支持二进制索引 • 支持多级索引如HNSW+IVF等 • CPU多核并行/GPU加速 PieCloudVector • Faiss与postgres内核对接 - 基础接口 • 增加向量列类型用于基本的加载与卸载 • 实现向量距离运算符 • 实现向量近似搜索的索引,调用faiss PieCloudVector • Faiss与postgres内核对接 - 数据可见性 • fa0 码力 | 28 页 | 1.69 MB | 1 年前3 大模型时代下向量数据库的设计与应用与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 P10 (filtered) P2 (filtered) 向量数据库 • 存储向量和原始实体(文字/图像/语音)及元信息,并将它们关联起来 • 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法 PieCloudVector • 支持二进制索引 • 支持多级索引如HNSW+IVF等 • CPU多核并行/GPU加速 PieCloudVector • Faiss与postgres内核对接 - 基础接口 • 增加向量列类型用于基本的加载与卸载 • 实现向量距离运算符 • 实现向量近似搜索的索引,调用faiss PieCloudVector • Faiss与postgres内核对接 - 数据可见性 • fa0 码力 | 28 页 | 1.69 MB | 1 年前3
 PieCloudDB:基于PostgreSQL的eMPP云原生数据库基础数据计算领域的世界级高科技创新驱动机构 CONTENTS @2022 OpenPie. All rights reserved. OpenPie Confidential 云解决了什么? 借助于云上分布式存储,解耦存储 借助于云上虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据平台上云已是大势所趋 用户专注于使用,运维等工作交给IaaS/SaaS厂商 @2022 OpenPie OpenPie. All rights reserved. OpenPie Confidential 上云 ≠ 云原生 弹性计算 智能化云原生平 台 多租户 • 产品要能支持存储资源和计算资源的分离 • 产品要能快速进行计算资源的弹性伸缩 @2022 OpenPie. All rights reserved. OpenPie Confidential 我们需要一个云原生大数据平台 缺乏弹性 Postgres生态支持 安全 友好的用户接口(WebSql, ODBC/JDBC driver等). 云原生 • 弹性计算资源(横向和纵向)、极速调整 • 共享用户数据(典型如廉价对象存储) • 共享元数据 • MPP架构:分布式,海量数据并行处理 @2022 OpenPie. All rights reserved. OpenPie Confidential Postgres0 码力 | 45 页 | 1.32 MB | 1 年前3 PieCloudDB:基于PostgreSQL的eMPP云原生数据库基础数据计算领域的世界级高科技创新驱动机构 CONTENTS @2022 OpenPie. All rights reserved. OpenPie Confidential 云解决了什么? 借助于云上分布式存储,解耦存储 借助于云上虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据平台上云已是大势所趋 用户专注于使用,运维等工作交给IaaS/SaaS厂商 @2022 OpenPie OpenPie. All rights reserved. OpenPie Confidential 上云 ≠ 云原生 弹性计算 智能化云原生平 台 多租户 • 产品要能支持存储资源和计算资源的分离 • 产品要能快速进行计算资源的弹性伸缩 @2022 OpenPie. All rights reserved. OpenPie Confidential 我们需要一个云原生大数据平台 缺乏弹性 Postgres生态支持 安全 友好的用户接口(WebSql, ODBC/JDBC driver等). 云原生 • 弹性计算资源(横向和纵向)、极速调整 • 共享用户数据(典型如廉价对象存储) • 共享元数据 • MPP架构:分布式,海量数据并行处理 @2022 OpenPie. All rights reserved. OpenPie Confidential Postgres0 码力 | 45 页 | 1.32 MB | 1 年前3
共 20 条
- 1
- 2













