云时代下多数据计算引擎的设计与实现reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代下多数据计算引擎的设计与实现 郭罡 CTO 拓数派(OpenPie) @2024 OpenPie. All rights reserved. OpenPie Confidential 关 于 拓 数 派 • 成立于2021年,以“Data Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential janm 格式 行列混存(PAX) 为极致的数据计算而设计和优化 解析性能极致 (vs Parquet, etc) @2024 OpenPie. All rights reserved. OpenPie Confidential JANM: 大数据计算系 产品子功能 太多分支? • 抽象的⽂件协议接⼝ • 抽象的⽂件格式接⼝ • 抽象的计算功能接⼝(e.g. data skipping) • 抽象的元数据存储接⼝ • …… 抽象和灵活的考虑贯穿所有的设计. Apache Arrow作为不少组件内存中间桥梁. @2024 OpenPie. All rights reserved. OpenPie Confidential Postgres 执行计算引擎0 码力 | 15 页 | 3.09 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现ETL方案设计与实现 邱培峰 拓数派 技术专家 云原生虚拟数仓PieCloudDB 大连理工大学软件工程本科 pgsql@qiupf.dev 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发 PieCloudDB 分布式架构简介 ETL 简述 PieCloudDB ETL方案设计 Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 030 码力 | 29 页 | 5.24 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现…. pyH� un lytlcD r.p ur re 。 Rock.s 2014 2018 2022 云原⽣数据库 PieCloudDB eMPP架构设计与实现 郭罡 拓数派CTO 关于拓数派(OpenPie) • 成⽴于2021年,以“Data Computing for New Discoveries”「数据计算, 只为新发现」为使命。 临时状态存储(如lock等) 也放在FoundationDB • 依赖于FoundationDB的KV特性、可串⾏化事务、watcher机制 • 多个集群(虚拟数仓)可以共享⼀份元数据 • FoundationDB⾼可⽤设计、备份恢复保证元数据的可靠性和可 ⽤性 元数据管理缓存 • ⺫的: • 减轻FoundationDB集群负担 • 加速查询优化(⺴络延迟远⾼于内存延迟) • 以Postgres原⽣的元数据缓存概念为基础,优化重构实现适⽤于 以Postgres原⽣的元数据缓存概念为基础,优化重构实现适⽤于 多集群架构 ⽤户数据存储引擎 • PAX(⾏列混存)配以⾼效压缩 • Block⽂件为⼀个存储(MVCC)单位 • 辅助信息存储⽤于计算优化 • 设计考虑: • ⾼效和精准的统计信息收集 • 存储和计算成本 • 各种计算优化 • SIMD, Cache Line • Data Skipping (本地查询和远程读取) • 预聚集 • .....0 码力 | 31 页 | 1.43 MB | 1 年前3
大模型时代下向量数据库的设计与应用大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息0 码力 | 28 页 | 1.69 MB | 1 年前3
πDataCS赋能工业软件创新与实践灵活 进⾏扩缩容,随着负载的变化实现⾼效的伸缩,轻松应对 PB级海量数据。 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免⽹络延迟和数据移动,提⾼计算效率,保 证用户的实时性需求。PieCloudDB针对底层对象存储设计了 ⾼效的⽂件格式,可在节省⽹络请求的同时提⾼计算效率。 全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息,并⽣成更⾼ 性保证了虚拟数仓永远在线可用,S3存储和跨云灾备 能⼒保证了永不丢数。 坚如磐⽯ | ⾼安全 ⾼在线 ⾼可靠 MPP πPG eMPP 内 核 存 算 分 离 重 写 云原⽣创新设计和专利 ⾏业顶级数据库的 抽象思考和设计原则复用 @2024 OpenPie. All rights reserved. OpenPie Confidential 云原⽣分布式优化器--达奇 多表连接的最优 顺序搜索 利用每个数据块内预计算的结果,提前过滤掉不符合条件的数据块,从⽽减少对数据的扫描和后续 的计算。 @2024 OpenPie. All rights reserved. OpenPie Confidential 分布式设计,保证可靠性 计算层: Ø eMPP:根据计算任务智能调度合适的资源,将⼀个单⼀计算 任务在⼤量独立的计算机上并⾏执⾏。 Ø 多租户,资源隔离。 Ø 弹性伸缩,支持多集群协同。 存储层:0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB 的云原生之路业可灵活进行扩缩容,随着负载的变化实现高效的伸缩, 轻松应对 PB 级海量数据。 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免网络延迟和数据移动,提高计算效率,保 证用户的实时性需求。PieCloudDB 针对底层对象存储设计了 高效的文件格式,可在节省网络请求的同时提高计算效率。 全新的优化器「达奇」 PieCloudDB 可以更智能高效地生成统计信息,并生成更高 Skipping 等高级特性,全面满足各种复杂的分析查询需求。 IvorySQL开源数据库社区 文本 时间序列分析 机器学习 数据转换 深度学习 传统BI 地理信息 PieCloudDB 设计原则:100%符合DB标准 100%兼容DW生态体系 Ø 关系型数学 Ø 完整的 SQL 标准 Ø ACID 事务 IvorySQL开源数据库社区 PART 03 PieCloudDB IvorySQL开源数据库社区 实现多节点共同访问的数据存储 实现分布式锁 • 高可用和多集群 • Multi-master • 多机并发访问 • 分布式环境下的多版本 元数据管理的设计目标 IvorySQL开源数据库社区 mstore — FoundationDB上的Catalog 基于 MVCC 的事务隔离级别 将元组以 key-value 的形式存储 到 FoundationDB0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路Discoveries”「数据计算,只为新发现」为使命, 成立后的短短10个月时间内,完成了包括头部产业基金、东吴证券、元 禾重元和政府科创平台在内的连续三轮战略融资。 旗下云原生分析型数据库PieCloudDB,以云计算架构为设计基础,首创 全新eMPP分布式技术,帮助企业建立竞争壁垒的同时,实现数据价值最 大化,并在新基建中承担可靠和可控的世界级云数据库底座。 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 灵活 进⾏扩缩容,随着负载的变化实现⾼效的伸缩,轻松应对 PB级海量数据。 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免⽹络延迟和数据移动,提⾼计算效率,保 证⽤户的实时性需求。PieCloudDB针对底层对象存储设计了 高效的文件格式,可在节省⽹络请求的同时提⾼计算效率。 全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息,并⽣成更⾼ e s 数 据 计 算 , 只 为 新 发 现 01 元数据管理 @2022 OpenPie. All rights reserved. OpenPie Confidential 元数据管理的设计目标 实现多节点共同访问的数据存储 实现分布式锁 • 高可用和多集群 • Multi-master • 多机并发访问 • 分布式环境下的多版本 @2022 OpenPie. All rights0 码力 | 44 页 | 1.64 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书未来会扩展其他 API 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 PieCloudDB 产品概述 拓数派旗下旗舰产品PieCloudDB,是以对行业顶级数据库的抽象思考和设计原则复用为技术路线,可将物理数仓整合 到云原生数据计算平台,根据数据授权动态创建虚拟数仓,按需灵活计算,打破数据孤岛,支撑更大模型所需的数据 和计算。在云上,数据计算资源按需扩缩容,提升数仓的敏 上运行,从而避免了企业受制于供应商,帮助企业在控制业务风险的同时推动创 新。 PieCloudDB 采取存算分离的 eMPP(弹性大规模并行计算)设计架构。存储侧支持标准对象存储,可以充分利用云计 算平台的优势,让对象存储接近无限的容量,计算侧在设计上充分考虑无状态实现,计算节点可以充分利用云环境海 量的计算节点池,按需扩容和缩容。 PieCloudDB 能够根据业务需求进行横向、纵 此外,PieCloudDB 兼容 ORCA 优化器(ORCA 是一款开源的、基于 Cascades 模型的模块化查询优化器,可以帮助用 户对 SQL 进行优化,生成高效的查询计划)。 PieCloudDB 通过独特的设计,具备原生多租户能力,每个租户有自己的数据库和虚拟数仓。不同的租户互相隔离, 租户之间数据和元数据彼此都不可见。每个租户可以按需创建不同得角色和用户,不同用户可以拥有不同的权限。 PieCloudDB0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB Database 产品白皮书 PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 PiecloudDB 产品概述 拓数派旗下旗舰产品 PieCloudDB ,是以对行业顶级数据库的抽象思考和设计原则复用为技术路线,采用领先的数仓 虚拟化技术,可将多个数仓统一整合到一个高可用的云虚拟数仓,打通多云的数据管道,数据计算资源按需扩缩容, 提升数仓的敏捷性和弹性,助力企业降低数仓管理复杂度,实现数 从而避免了企业受制于供应商,帮助企业在控制业务风险的同时推动创 新。 。 多维度弹性扩缩容 pieCloudDB 采取存算分离的eMPP (弹性大规模并行计算) 设计架构。存储侧支持标准对象存储,可以充分利用云计 算平台的优势,让对象存情接近无限的容量,计算侧在设计上充分考虑无状态实现,计算节点可以充分利用云环境海 量的计算节点池,按需扩容和缩容。 PieCloudDB 能够根据业务需求进行横向、纵向以及集群 优化器 (DORCA 是一款开源的、基于 Cascades 模型的模块化查询优化器,可以帮助用 户对 SQL 进行优化,生成高效的查询计划) 。 * 原生多租户支持 PieCloudDB 通过独特的设计,具备原生多租户能力,每个租户有自己的数据库和虚拟数仓。不同的租户互相隔离,, 租户之间数据和元数据彼此都不可见。每个租户可以按需创建不同得角色和用户,不同用户可以拥有不同的权限。 。 人性化的管控平台0 码力 | 17 页 | 2.68 MB | 1 年前3
AGI 趋势下的云原生数据计算系统虚拟数仓引擎设计 云原生数据计算系统 分布式优化器设计 云原生数据计算系统 结构化和半结构化数据同步 云原生数据计算系统 向量计算引擎设计 云原生数据计算系统 多模态数据共享 AIGC全生命周期管理 基于PieCloudML,为企业构建统一的MaaS框架和 AIGC开发框架,对模型和AI Agent进行高效管理。 03 AIGC全生命周期管理 PieCloudML引擎设计 AIGC全生命周期管理0 码力 | 26 页 | 2.84 MB | 1 年前3
共 16 条
- 1
- 2













