云时代下多数据计算引擎的设计与实现reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代下多数据计算引擎的设计与实现 郭罡 CTO 拓数派(OpenPie) @2024 OpenPie. All rights reserved. OpenPie Confidential 关 于 拓 数 派 • 成立于2021年,以“Data0 码力 | 15 页 | 3.09 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现ETL方案设计与实现 邱培峰 拓数派 技术专家 云原生虚拟数仓PieCloudDB 大连理工大学软件工程本科 pgsql@qiupf.dev 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发 PieCloudDB 分布式架构简介 ETL 简述 PieCloudDB ETL方案设计 Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 030 码力 | 29 页 | 5.24 MB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现服务注册 @2022 OpenPie. All rights reserved. OpenPie Confidential • Master 节点和 FoundationDB 通过事务的方式协同实现了分布式的事务和锁 • 系统表以 mstore 的方式存储在 FoundationDB 上 • Master节点本地不持有任何全局状态 @2022 OpenPie. All rights reserved OpenPie Confidential PieCloudDB 云原生架构 @2022 OpenPie. All rights reserved. OpenPie Confidential 云原生特性的实现途径 • 弹性伸缩的集群 • 完全无状态的Segment节点 • Multi-cluster • 独立的系统表 • 分布式的锁和事务 @2022 OpenPie. All rights reserved rights reserved. OpenPie Confidential • 将元组以key-value的形式存储到 FoundationDB • 使用原有的机制实现mvcc • 使用foundationdb key的自然排序实现index • Xmin:创建这个tuple的事务 id • Xmax:删除这个tuple的事务id • ctid:指向update的下一个tuple @20220 码力 | 43 页 | 1.14 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现pyH� un lytlcD r.p ur re 。 Rock.s 2014 2018 2022 云原⽣数据库 PieCloudDB eMPP架构设计与实现 郭罡 拓数派CTO 关于拓数派(OpenPie) • 成⽴于2021年,以“Data Computing for New Discoveries”「数据计算, 只为新发现」为使命。 • 现Pre-A轮融资,已完成数亿元融资。 产品已经在⼀些⾦融、医疗等⾏业开始使⽤。 关于我 • 毕业于中国科技⼤学,AI相关专业 • 毕业 1 年后到现在⼀直从事底层基础软件开发,10多年开发经验 • 领域涉及到: • 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 我们的选择 • 很多功能不⽤也没必要重新造轮⼦ • 和⼀流的产品和⼈才⼀起成⻓ • 团队深度理解Postgres内核代码,在社区参与诸多贡献 PieCloudDB 架构 元数据管理 基于 MVCC 的事务隔离级别 使用 FoundationDB Key 的自然排序 实现索引 将元组以 key-value 的形式存储 到 FoundationDB 元数据管理 • 临时状态存储(如lock等)0 码力 | 31 页 | 1.43 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库OpenPie Confidential Postgres 生态 PieCloudDB 重新打造 PostgreSQL 12.x 实现存算分离 PieCloudDB 对几乎所有内核模块做了大量的创新 PieCloudDB 内核团队拥有强悍的Postgres内核代码掌控能力 • 将来会保持和Postgres内核大版本对齐 团队也拥有丰富的Postgres内核大版本升级合并经验 @2022 OpenPie 只 为 新 发 现 01 元数据管理 @2022 OpenPie. All rights reserved. OpenPie Confidential 元数据管理的设计目标 实现多节点共同访问的数据存储 实现分布式锁 • 高可用和多集群 • Multi-master • 多机并发访问 • 分布式环境下的多版本 @2022 OpenPie. All rights reserved FoundationDB 使用 FoundationDB Key 的自然排序 实现索引 @2022 OpenPie. All rights reserved. OpenPie Confidential mstore — FoundationDB上的Catalog 使用和 Postgres 相同方式存储元数据 —— 将元数据存储在系统表中 实现新的基于key-value的存储来存放系统表 @2022 OpenPie0 码力 | 45 页 | 1.32 MB | 1 年前3
πDataCS赋能工业软件创新与实践据和 计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 ,赋能⾏业AI场景应用。 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 @2024 OpenPie. All rights reserved. OpenPie Flink等计算任务,保留用户的使用习惯。 ⽣态完善,支持主流的开发语⾔和数据科学⼯具,支持多模数据处理(结构化、 半结构化以及非结构化),提供标准的SQL接⼝和API,完成各种复杂场景的数 据处理,业务开发周期短,现存的代码基本可以⽆缝迁移和复用。 国内自主研发,具备社区版、商业版以及云SaaS服务,与国产软硬件完美兼容, 属于信创产业。支持公有云,可充分利用云资源的弹性能⼒。组件少,提供可 视化管理平台,运维管 @2024 OpenPie. All rights reserved. OpenPie Confidential 计算引擎之 PieCloudDB虚拟数仓,支撑更⼤模型所需的数据和计算 SQL语⾔实现的结构化数据上的模型计算 打破企业数据孤岛,整合企业所有表格类数据资源 πCloudDB(强逻辑计算) 云原⽣数据库/ 虚拟数仓 eMPP专利技术发明者/虚拟数仓产品的全球⾏业领导者 @20240 码力 | 36 页 | 4.25 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCSDiscoveries”「数据计算,只为新发现」为使命,致力于在数字原生时代,运用突破性计算理论、 独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准, 驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一 因为参与Pivotal的拆分创建、C轮融资和IPO成功,以及主导的Greenplum产品在全球范围的开源影 响力,被《数字商业周刊》选为2019年度封面人物。(《数商周刊》报道) 拓数派创始人、董事长兼首席执行官 • 冯雷带领团队实现数据库云原生虚拟化突破,打造的PieCloudDB(πCloudDB)数据库是来自本土的 全球创新热点。凭此再度荣登数字商业周刊“年度智造中国商业领袖”。(《数字商业时代》报道) 拓数派创始人、 Flink等计算任务,保留用户的使用习惯。 生态完善,支持主流的开发语言和数据科学工具,支持多模数据处理(结构化、 半结构化以及非结构化),提供标准的SQL接口和API,完成各种复杂场景的数据 处理,业务开发周期短,现存的代码基本可以无缝迁移和复用。 国内自主研发,具备社区版、商业版以及云SaaS服务,与国产软硬件完美兼容, 属于信创产业。支持公有云,可充分利用云资源的弹性能力。组件少,提供可视 化管理平台,运维管0 码力 | 29 页 | 7.46 MB | 1 年前3
大模型时代下向量数据库的设计与应用解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 (filtered) P2 (filtered) 向量数据库 • 存储向量和原始实体(文字/图像/语音)及元信息,并将它们关联起来 • 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法 PieCloudVector • 基于postgres打造的数据库内核 支持多级索引如HNSW+IVF等 • CPU多核并行/GPU加速 PieCloudVector • Faiss与postgres内核对接 - 基础接口 • 增加向量列类型用于基本的加载与卸载 • 实现向量距离运算符 • 实现向量近似搜索的索引,调用faiss PieCloudVector • Faiss与postgres内核对接 - 数据可见性 • faiss索引增加mvcc信息,与数据库内可见性保持一致0 码力 | 28 页 | 1.69 MB | 1 年前3
如何从零开始参与技术社区?• 我与 OpenPie • 社区贡献的从0到1 • 如何进⾏代码贡献 @2024 OpenPie. All rights reserved. OpenPie Confidential 关 于 我 • 王刚(Tender Wang) • 拓数派 PieCloudDB 技术专家 • 多次参与PostgreSQL 代码贡献 @2024 OpenPie. All rights reserved OpenPie Confidential 核⼼代码相关的贡献 • Bug report • Review patch • Write patch How to Contribute to PostgreSQL @2024 OpenPie. All rights reserved. OpenPie Confidential “周边”代码相关的贡献 • Contrib/ • Driver0 码力 | 25 页 | 871.00 KB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书每周有一个中等计算任务,需要数十个节点 每月有一个大的计算任务,需要数千个节点 无限空间: 灵活伸缩: 资源回收: 这些优势使云原生数据库得以降低计算成本,提供无限丰富的计算资源,实现分钟级的伸缩性和真正的高可用,释放 出数据计算产生更多智能的机会。以下是云原生时代数字企业的典型使用场景: 面对这些不断变化的业务需求和计算任务,企业产生了更高的需求: 充分结 分布式技术,可将物理数仓整合到云原生数据 计算平台,根据数据授权动态创建虚拟数仓,按需灵活计算,打破数据孤岛,支撑更大模型所需的数据和计算。 PieCloudDB 为企业构建「坚如磐石」的虚拟数仓,以云资源最优化配置实现无限数据计算可能,基于新一代数仓虚 拟化,提供云数仓智能化解决方案,助力企业建立以数据资产为核心的竞争壁垒。 7 PieCloudDB 产品架构 PieCloudDB 整体架构分为三 捷性和弹性,助力企业降低数仓管理复杂度,实现数量级 增加可计算数据空间的同时,数量级降低数仓成本,打开无限数据计算空间,推进AI/BI到下一个精度。PieCloudDB 在eMPP分布式专利技术、服务器无感知(Serverless)及TDE(透明数据加密)等多项核心技术加持下,为企业构建 高安全,高可靠,高在线「坚如磐石」的云原生虚拟数仓,助力企业实现数据价值最大化,更好地赋能业务发展并走0 码力 | 17 页 | 2.02 MB | 1 年前3
共 19 条
- 1
- 2













