 PieCloudDB Database 产品白皮书 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时,所有机器同时并行计算,理论上最 把计算时间降低到单机部署的 1/n (n为机器数量) 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析,提供标准的 SQL 接口,且内置各种分析工 具,并原生兼容 Postgres 生态,可以很好地处理地理信息数据和文本,未来会扩展其他 Ap| 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 Openl SN Pie | PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 兼容度 PieCloudDB 高度兼容 59L; 2016 标准,完全支持SQL: 1992标准、大部分的SQL: 1999和部分SQL: 2003标准 (主要支 持其中的OLAP 特性) ,支持窗口函数等高阶表达式。此外, PieCloudDB 容 PostgreSQL 协议,支持标准数据库接 口 (0DBC、JDBC等) 。 对5QL的全面支持和多种过程语言 (Procedure Language)0 码力 | 17 页 | 2.68 MB | 1 年前3 PieCloudDB Database 产品白皮书 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时,所有机器同时并行计算,理论上最 把计算时间降低到单机部署的 1/n (n为机器数量) 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析,提供标准的 SQL 接口,且内置各种分析工 具,并原生兼容 Postgres 生态,可以很好地处理地理信息数据和文本,未来会扩展其他 Ap| 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 Openl SN Pie | PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 兼容度 PieCloudDB 高度兼容 59L; 2016 标准,完全支持SQL: 1992标准、大部分的SQL: 1999和部分SQL: 2003标准 (主要支 持其中的OLAP 特性) ,支持窗口函数等高阶表达式。此外, PieCloudDB 容 PostgreSQL 协议,支持标准数据库接 口 (0DBC、JDBC等) 。 对5QL的全面支持和多种过程语言 (Procedure Language)0 码力 | 17 页 | 2.68 MB | 1 年前3
 云原生虚拟数仓PieCloudDB Database产品白皮书传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时,所有机器同时并行计算,理论上最高可以 把计算时间降低到单机部署的 1/n(n为机器数量),节省了海量数据的处理时间。 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析,提供标准的 SQL 接口,且内置各种分析工 具,并原生兼容 Postgres 生态,可以很好地处理地理信息数据和文本,未来会扩展其他 API 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 PieCloudDB 产品概述 拓数派旗下旗舰产品PieCloudDB,是以对行业顶级数据库的抽象思考和设计原则复用为技术路线,可将物理数仓整合 PieCloudDB 高度兼容 SQL: 2016 标准,完全支持SQL: 1992标准、大部分的SQL: 1999和部分SQL: 2003标准(主要支 持其中的OLAP 特性),支持窗口函数等高阶表达式。此外, PieCloudDB 兼容 PostgreSQL 协议,支持标准数据库接 口(ODBC、JDBC 等)。 对SQL的全面支持和多种过程语言(Procedure Language)的支持使得0 码力 | 17 页 | 2.02 MB | 1 年前3 云原生虚拟数仓PieCloudDB Database产品白皮书传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时,所有机器同时并行计算,理论上最高可以 把计算时间降低到单机部署的 1/n(n为机器数量),节省了海量数据的处理时间。 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析,提供标准的 SQL 接口,且内置各种分析工 具,并原生兼容 Postgres 生态,可以很好地处理地理信息数据和文本,未来会扩展其他 API 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 PieCloudDB 产品概述 拓数派旗下旗舰产品PieCloudDB,是以对行业顶级数据库的抽象思考和设计原则复用为技术路线,可将物理数仓整合 PieCloudDB 高度兼容 SQL: 2016 标准,完全支持SQL: 1992标准、大部分的SQL: 1999和部分SQL: 2003标准(主要支 持其中的OLAP 特性),支持窗口函数等高阶表达式。此外, PieCloudDB 兼容 PostgreSQL 协议,支持标准数据库接 口(ODBC、JDBC 等)。 对SQL的全面支持和多种过程语言(Procedure Language)的支持使得0 码力 | 17 页 | 2.02 MB | 1 年前3
 πDataCS赋能工业软件创新与实践拓数派⼤模型数据计算系统正式亮相,让AI模型更⼤更快 @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS的产品理念及定位 数据 计算 模型 灵活扩展的数据引擎,支持关系型数据库SQL、Spark/Flink 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎 数据计算。主要解决海量数据的存储和实时计算问题,具备湖仓⼀体化的能⼒, 用户可根据实际情况去选择合适的数据计算引擎。 灵活可扩展的插件式引擎,组件少⽽精(All in One),提供3种计算引擎、1种 Lakehouse引擎,1个硬件加速器,应对各种场景的计算,同时也兼容Spark、 Flink等计算任务,保留用户的使用习惯。 协调器 协调器 虚拟数仓1 执⾏器 协调器 虚拟数仓2 执⾏器 … 连接管理 查询优化器 资源隔离 向量化执⾏ 事务管理 执⾏计划 并⾏计算 ⾼可用 数据查询 数据加载 弹性伸缩 自定义函数 集群管控 元数据访问 业务数据读写 元数据映射 元数据: Ø 分布式KV,存储系统表 Ø 基于key的自然排序实现索引 Ø ⾼性能 Ø 基于watcher机制的⾼效分布式锁管理 Ø0 码力 | 36 页 | 4.25 MB | 1 年前3 πDataCS赋能工业软件创新与实践拓数派⼤模型数据计算系统正式亮相,让AI模型更⼤更快 @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS的产品理念及定位 数据 计算 模型 灵活扩展的数据引擎,支持关系型数据库SQL、Spark/Flink 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎 数据计算。主要解决海量数据的存储和实时计算问题,具备湖仓⼀体化的能⼒, 用户可根据实际情况去选择合适的数据计算引擎。 灵活可扩展的插件式引擎,组件少⽽精(All in One),提供3种计算引擎、1种 Lakehouse引擎,1个硬件加速器,应对各种场景的计算,同时也兼容Spark、 Flink等计算任务,保留用户的使用习惯。 协调器 协调器 虚拟数仓1 执⾏器 协调器 虚拟数仓2 执⾏器 … 连接管理 查询优化器 资源隔离 向量化执⾏ 事务管理 执⾏计划 并⾏计算 ⾼可用 数据查询 数据加载 弹性伸缩 自定义函数 集群管控 元数据访问 业务数据读写 元数据映射 元数据: Ø 分布式KV,存储系统表 Ø 基于key的自然排序实现索引 Ø ⾼性能 Ø 基于watcher机制的⾼效分布式锁管理 Ø0 码力 | 36 页 | 4.25 MB | 1 年前3
 PieCloudDB Database V2.8 Release Note执行结果中显示调度相关状态信息。 4 l 用户定义函数 UDF n 新增 janm_page_size_read,用以获取 Page 大小。 n 新增 janm_block_file_size_read,用以获取 Block 文件大小。 n 新增 pdb_database_sizes,在 pdb_database_tools 扩展中用于收集所 有数据库大小。0 码力 | 4 页 | 144.49 KB | 1 年前3 PieCloudDB Database V2.8 Release Note执行结果中显示调度相关状态信息。 4 l 用户定义函数 UDF n 新增 janm_page_size_read,用以获取 Page 大小。 n 新增 janm_block_file_size_read,用以获取 Block 文件大小。 n 新增 pdb_database_sizes,在 pdb_database_tools 扩展中用于收集所 有数据库大小。0 码力 | 4 页 | 144.49 KB | 1 年前3
 云原生数据库 PieCloudDB : Unbreakable 安全特性剖析原有业务无需变化 • 不影响ETL数据导入导出 透明加密组件架构 用户查询 优化器 执行器 存储接口 数据 透明加密组件架构 用户请求 优化器 执行器 存储接口 透明加密组件 数据 函数接口 密钥管理 模块 加密模块 加密算法库 租户密钥生成 主密钥 用户信任域 租户创建请求 租户密钥生成 主密钥 用户信任域 密钥生成 租户创建请求 加密 租户密钥生成 持久化存储区域 定时器 上级密钥 密钥储存区 PART 04 总结 总结 • 用户侧 • 符合审计流程 • 用户无感知 • 业务不变化 • 研发侧 • 不影响内核迭代 • 独立模块,方便后续扩展 • 无历史包袱 加入我们! • 官 网: https://www.openpie.com • 公 众 号 :PieCloudDB | 拓数派 • 技术社群:扫码添加入群助手 扫码加入 PieCloudDB0 码力 | 34 页 | 599.00 KB | 1 年前3 云原生数据库 PieCloudDB : Unbreakable 安全特性剖析原有业务无需变化 • 不影响ETL数据导入导出 透明加密组件架构 用户查询 优化器 执行器 存储接口 数据 透明加密组件架构 用户请求 优化器 执行器 存储接口 透明加密组件 数据 函数接口 密钥管理 模块 加密模块 加密算法库 租户密钥生成 主密钥 用户信任域 租户创建请求 租户密钥生成 主密钥 用户信任域 密钥生成 租户创建请求 加密 租户密钥生成 持久化存储区域 定时器 上级密钥 密钥储存区 PART 04 总结 总结 • 用户侧 • 符合审计流程 • 用户无感知 • 业务不变化 • 研发侧 • 不影响内核迭代 • 独立模块,方便后续扩展 • 无历史包袱 加入我们! • 官 网: https://www.openpie.com • 公 众 号 :PieCloudDB | 拓数派 • 技术社群:扫码添加入群助手 扫码加入 PieCloudDB0 码力 | 34 页 | 599.00 KB | 1 年前3
 云原生虚拟数仓 PieCloudDB ETL 方案设计与实现分布式架构 导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 模式 • INSERT 模式,支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式,步骤1 Ø PieCloudDB Foreign Table,postgres扩展,需要为数据源单独开发 Ø 控制节点上读取数据源信息,决定是否拆分,生成任务信息 Ø 计算节点上根据任务信息读取数据源,返回raw数据和元信息 CREATE FOREIGN TABLE foreign_table(meta0 码力 | 29 页 | 5.24 MB | 1 年前3 云原生虚拟数仓 PieCloudDB ETL 方案设计与实现分布式架构 导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 模式 • INSERT 模式,支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式,步骤1 Ø PieCloudDB Foreign Table,postgres扩展,需要为数据源单独开发 Ø 控制节点上读取数据源信息,决定是否拆分,生成任务信息 Ø 计算节点上根据任务信息读取数据源,返回raw数据和元信息 CREATE FOREIGN TABLE foreign_table(meta0 码力 | 29 页 | 5.24 MB | 1 年前3
 大模型时代下向量数据库的设计与应用Vector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 和产品创新迭代, 超过3000余家企业续约学习,是科技领域占有率第1的客座导师品牌,msup以 整合全球领先经验实践为己任,为中国产业快速发展提供智库。 高可用架构主要关注互联网架构及高可用、可扩展及高性能领域的知识传播。 订阅用户覆盖主流互联网及软件领域系统架构技术从业人员。 高可用架构系列 社群是一个社区组织,其精神是“分享+交流”,提倡社区的人人参与,同时从社 区获得高质量的内容。0 码力 | 28 页 | 1.69 MB | 1 年前3 大模型时代下向量数据库的设计与应用Vector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 和产品创新迭代, 超过3000余家企业续约学习,是科技领域占有率第1的客座导师品牌,msup以 整合全球领先经验实践为己任,为中国产业快速发展提供智库。 高可用架构主要关注互联网架构及高可用、可扩展及高性能领域的知识传播。 订阅用户覆盖主流互联网及软件领域系统架构技术从业人员。 高可用架构系列 社群是一个社区组织,其精神是“分享+交流”,提倡社区的人人参与,同时从社 区获得高质量的内容。0 码力 | 28 页 | 1.69 MB | 1 年前3
 云原生数据库 PieCloudDB eMPP架构设计与实现e代表弹性(elastic) 完善的Postgres生态 为什么选择Postgres? • 关于Postgres • 公司中⽴,开源协议友好,国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展,插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持 (原⽣或者插件) • 采⽤度和流⾏度持续上升 • 优秀的⽣态 • 我们的选择 • 很多功能不⽤也没必要重新造轮⼦ • 和⼀流的产品和⼈才⼀起成⻓ • 团0 码力 | 31 页 | 1.43 MB | 1 年前3 云原生数据库 PieCloudDB eMPP架构设计与实现e代表弹性(elastic) 完善的Postgres生态 为什么选择Postgres? • 关于Postgres • 公司中⽴,开源协议友好,国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展,插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持 (原⽣或者插件) • 采⽤度和流⾏度持续上升 • 优秀的⽣态 • 我们的选择 • 很多功能不⽤也没必要重新造轮⼦ • 和⼀流的产品和⼈才⼀起成⻓ • 团0 码力 | 31 页 | 1.43 MB | 1 年前3
 PieCloudDB 的云原生之路愿 景 Big Data Promises Finally Come True IvorySQL开源数据库社区 • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难(后期升级部署困难) • 木桶效应 • 大量数据孤岛问题 计算层 存储层 MPP: Massive Parallel Processing eMPP : elastic Massive 唯一真理 o 全局只需要存储一份数据,通过共享存储来实现数据共享,避免拷 贝和维护多份数据副本 IvorySQL开源数据库社区 事务 • ACID 支持两种隔离级别:读已提交、可重复读 • 扩展性 事务管理器无单点性能瓶颈 • 隔离性 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 事务管理器支持对各类基础设施故障进行自动容错 IvorySQL开源数据库社区 030 码力 | 47 页 | 1.80 MB | 1 年前3 PieCloudDB 的云原生之路愿 景 Big Data Promises Finally Come True IvorySQL开源数据库社区 • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难(后期升级部署困难) • 木桶效应 • 大量数据孤岛问题 计算层 存储层 MPP: Massive Parallel Processing eMPP : elastic Massive 唯一真理 o 全局只需要存储一份数据,通过共享存储来实现数据共享,避免拷 贝和维护多份数据副本 IvorySQL开源数据库社区 事务 • ACID 支持两种隔离级别:读已提交、可重复读 • 扩展性 事务管理器无单点性能瓶颈 • 隔离性 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 事务管理器支持对各类基础设施故障进行自动容错 IvorySQL开源数据库社区 030 码力 | 47 页 | 1.80 MB | 1 年前3
 PieCloudDB云原生数仓虚拟化之路@2022 OpenPie. All rights reserved. OpenPie Confidential • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难(后期升级部署困难) • 木桶效应 • 大量数据孤岛问题 计算层 存储层 MPP: Massive Parallel Processing eMPP : elastic Massive 享,避免拷贝和维护多份数据副本 存储 @2022 OpenPie. All rights reserved. OpenPie Confidential • ACID - 支持两种隔离级别:读已提交、可重复读 • 扩展性 - 事务管理器无单点性能瓶颈 • 隔离性 - 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 - 事务管理器支持对各类基础设施故障进行自动容错 事务 @2022 OpenPie0 码力 | 44 页 | 1.64 MB | 1 年前3 PieCloudDB云原生数仓虚拟化之路@2022 OpenPie. All rights reserved. OpenPie Confidential • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难(后期升级部署困难) • 木桶效应 • 大量数据孤岛问题 计算层 存储层 MPP: Massive Parallel Processing eMPP : elastic Massive 享,避免拷贝和维护多份数据副本 存储 @2022 OpenPie. All rights reserved. OpenPie Confidential • ACID - 支持两种隔离级别:读已提交、可重复读 • 扩展性 - 事务管理器无单点性能瓶颈 • 隔离性 - 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 - 事务管理器支持对各类基础设施故障进行自动容错 事务 @2022 OpenPie0 码力 | 44 页 | 1.64 MB | 1 年前3
共 14 条
- 1
- 2













