云时代下多数据计算引擎的设计与实现reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代下多数据计算引擎的设计与实现 郭罡 CTO 拓数派(OpenPie) @2024 OpenPie. All rights reserved. OpenPie Confidential 关 于 拓 数 派 • 成立于2021年,以“Data0 码力 | 15 页 | 3.09 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现ETL方案设计与实现 邱培峰 拓数派 技术专家 云原生虚拟数仓PieCloudDB 大连理工大学软件工程本科 pgsql@qiupf.dev 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发 PieCloudDB 分布式架构简介 ETL 简述 PieCloudDB ETL方案设计 Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 030 码力 | 29 页 | 5.24 MB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现服务注册 @2022 OpenPie. All rights reserved. OpenPie Confidential • Master 节点和 FoundationDB 通过事务的方式协同实现了分布式的事务和锁 • 系统表以 mstore 的方式存储在 FoundationDB 上 • Master节点本地不持有任何全局状态 @2022 OpenPie. All rights reserved OpenPie Confidential PieCloudDB 云原生架构 @2022 OpenPie. All rights reserved. OpenPie Confidential 云原生特性的实现途径 • 弹性伸缩的集群 • 完全无状态的Segment节点 • Multi-cluster • 独立的系统表 • 分布式的锁和事务 @2022 OpenPie. All rights reserved rights reserved. OpenPie Confidential • 将元组以key-value的形式存储到 FoundationDB • 使用原有的机制实现mvcc • 使用foundationdb key的自然排序实现index • Xmin:创建这个tuple的事务 id • Xmax:删除这个tuple的事务id • ctid:指向update的下一个tuple @20220 码力 | 43 页 | 1.14 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现pyH� un lytlcD r.p ur re 。 Rock.s 2014 2018 2022 云原⽣数据库 PieCloudDB eMPP架构设计与实现 郭罡 拓数派CTO 关于拓数派(OpenPie) • 成⽴于2021年,以“Data Computing for New Discoveries”「数据计算, 只为新发现」为使命。 • 现Pre-A轮融资,已完成数亿元融资。 毕业于中国科技⼤学,AI相关专业 • 毕业 1 年后到现在⼀直从事底层基础软件开发,10多年开发经验 • 领域涉及到: • 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 和⼀流的产品和⼈才⼀起成⻓ • 团队深度理解Postgres内核代码,在社区参与诸多贡献 PieCloudDB 架构 元数据管理 基于 MVCC 的事务隔离级别 使用 FoundationDB Key 的自然排序 实现索引 将元组以 key-value 的形式存储 到 FoundationDB 元数据管理 • 临时状态存储(如lock等) 也放在FoundationDB • 依赖于FoundationD0 码力 | 31 页 | 1.43 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书每周有一个中等计算任务,需要数十个节点 每月有一个大的计算任务,需要数千个节点 无限空间: 灵活伸缩: 资源回收: 这些优势使云原生数据库得以降低计算成本,提供无限丰富的计算资源,实现分钟级的伸缩性和真正的高可用,释放 出数据计算产生更多智能的机会。以下是云原生时代数字企业的典型使用场景: 面对这些不断变化的业务需求和计算任务,企业产生了更高的需求: 充分结 分布式技术,可将物理数仓整合到云原生数据 计算平台,根据数据授权动态创建虚拟数仓,按需灵活计算,打破数据孤岛,支撑更大模型所需的数据和计算。 PieCloudDB 为企业构建「坚如磐石」的虚拟数仓,以云资源最优化配置实现无限数据计算可能,基于新一代数仓虚 拟化,提供云数仓智能化解决方案,助力企业建立以数据资产为核心的竞争壁垒。 7 PieCloudDB 产品架构 PieCloudDB 整体架构分为三 捷性和弹性,助力企业降低数仓管理复杂度,实现数量级 增加可计算数据空间的同时,数量级降低数仓成本,打开无限数据计算空间,推进AI/BI到下一个精度。PieCloudDB 在eMPP分布式专利技术、服务器无感知(Serverless)及TDE(透明数据加密)等多项核心技术加持下,为企业构建 高安全,高可靠,高在线「坚如磐石」的云原生虚拟数仓,助力企业实现数据价值最大化,更好地赋能业务发展并走0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB Database 产品白皮书 C 二 低价的对象存储 Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 些优势使云原生数据库得以降低计算成本,提供无限丰富的计算资源,实现分钟级的伸缩性和真正的高可用,释放 出数据计算产生更多智能的机会。以下是云原生时代数字企业的典型使用场景 * 每天有数个小的计算任务,需要数个节点 * 每周有一个中等计算任务,需要数十个节点 * 每月有一个大的计算任务,需要数干个节点 Parallel Processing) 分布式技术,旨在为企业提供包含实时处理、 移级扩缩容、弹性计算、集成数据分析等强大功能的云上数据存储和计算引擎,助力企业实现数据价值最大化。 pieCloudDB 为企业构建坚如般石的虚拟数仓,以云资源最优化配置实现无限数据计算可能,基于新一代数仓虚拟 化,提供云数仓智能化解决方案,助力企业建立以数据资产为核心的竞争整垒。 Openpie | PiecloudDB 提升数仓的敏捷性和弹性,助力企业降低数仓管理复杂度,实现数量级增加可计算数据空间的同时,数量级降低数仓 成本,打开无限数据计算空间,推进AVBI到下一个精度。PieCloudDB在eMPP分布式专利技术、服务器无感知 《(Serverless)及TDE等多项核心技术加持下,为企业构建高安全,高可靠,高在线 【坚如大石) 的云原生虚拟数仓, 助力企业实现数据价值最大化,更好地赋能业务发展并走向绿色,成为新一代Al数据计算基础设施的一个典范。0 码力 | 17 页 | 2.68 MB | 1 年前3
πDataCS赋能工业软件创新与实践据和 计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 ,赋能⾏业AI场景应用。 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 @2024 OpenPie. All rights reserved. OpenPie @2024 OpenPie. All rights reserved. OpenPie Confidential 计算引擎之 PieCloudDB虚拟数仓,支撑更⼤模型所需的数据和计算 SQL语⾔实现的结构化数据上的模型计算 打破企业数据孤岛,整合企业所有表格类数据资源 πCloudDB(强逻辑计算) 云原⽣数据库/ 虚拟数仓 eMPP专利技术发明者/虚拟数仓产品的全球⾏业领导者 @2024 权动态创建虚拟数仓,打破数据孤岛,解决数据多 副本问题,帮助企业降低数仓管理复杂度,以更低 的成本实现存算资源在云上更灵活的配置。 TDE技术保证了所有数据在落盘前完成加密,服务 器⽆感知技术(Serverless)利用云上⽆限计算资源 和弹性保证了虚拟数仓永远在线可用,S3存储和跨 云灾备能⼒保证了永不丢数。 数据计算资源按需扩缩容,实现计算资源配置最优化, 提升数仓的敏捷性和弹性,打开⽆限数据计算空间,0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路基金、东吴证券、元 禾重元和政府科创平台在内的连续三轮战略融资。 旗下云原生分析型数据库PieCloudDB,以云计算架构为设计基础,首创 全新eMPP分布式技术,帮助企业建立竞争壁垒的同时,实现数据价值最 大化,并在新基建中承担可靠和可控的世界级云数据库底座。 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 @2022 OpenPie. All rights reserved 数据孤岛,解决数据多副本问题,帮助企业降低数 仓管理复杂度,以更低的成本实现存算资源在云上 更灵活的配置。 TDE技术保证了所有数据在落盘前完成加密,服务 器⽆感知技术(Serverless)利⽤云上⽆限计算资源 和弹性保证了虚拟数仓永远在线可⽤,S3存储和跨 云灾备能⼒保证了永不丢数。 数据计算资源按需扩缩容,实现计算资源配置最优化, 提升数仓的敏捷性和弹性,打开⽆限数据计算空间, 运用元数据-计算-数据分离的三层架构,实现云上存储资源与 计算资源的独⽴管理。云上计算资源可弹性分配,有查询计 算任务的时候按需启动,按照使⽤时间和规模计算成本。 eMPP分布式专利技术 在云上,PieCloudDB利⽤eMPP(elastic Massive Parallel Processing)架构,实现多集群并发执行任务。企业可灵活 进⾏扩缩容,随着负载的变化实现⾼效的伸缩,轻松应对 PB级海量数据。0 码力 | 44 页 | 1.64 MB | 1 年前3
PieCloudDB 的云原生之路产业基金、东吴证券、元禾重元和政府科创平台在内的连续三 轮战略融资。 旗下云原生分析型数据库 PieCloudDB,以云计算架构为设 计基础,首创全新 eMPP 分布式技术,帮助企业建立竞争壁垒 的同时,实现数据价值最大化,并在新基建中承担可靠和可控 的世界级云数据库底座。 IvorySQL开源数据库社区 2021 2022 当天即获得腾讯投资天使轮投资 成为 Day-1 准独角兽 7月 与中国人民大学成立实习基地,打造 数据孤岛,解决数据多副本问题,帮助企业降低数 仓管理复杂度,以更低的成本实现存算资源在云上 更灵活的配置。 TDE 技术保证了所有数据在落盘前完成加密,服务 器无感知技术(Serverless)利用云上无限计算资 源和弹性保证了虚拟数仓永远在线可用,S3 存储和 跨云灾备能力保证了永不丢数。 数据计算资源按需扩缩容,实现计算资源配置最优化, 提升数仓的敏捷性和弹性,打开无限数据计算空间, 运用元数据-计算-数据分离的三层架构,实现云上存储资源 与计算资源的独立管理。云上计算资源可弹性分配,有查询 计算任务的时候按需启动,按照使用时间和规模计算成本。 eMPP 分布式专利技术 在云上,PieCloudDB 利用 eMPP(elastic Massive Parallel Processing)架构,实现多集群并发执行任务。企 业可灵活进行扩缩容,随着负载的变化实现高效的伸缩, 轻松应对0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库@2022 OpenPie. All rights reserved. OpenPie Confidential Postgres 生态 PieCloudDB 重新打造 PostgreSQL 12.x 实现存算分离 PieCloudDB 对几乎所有内核模块做了大量的创新 PieCloudDB 内核团队拥有强悍的Postgres内核代码掌控能力 • 将来会保持和Postgres内核大版本对齐 团 只 为 新 发 现 01 元数据管理 @2022 OpenPie. All rights reserved. OpenPie Confidential 元数据管理的设计目标 实现多节点共同访问的数据存储 实现分布式锁 • 高可用和多集群 • Multi-master • 多机并发访问 • 分布式环境下的多版本 @2022 OpenPie. All rights reserved FoundationDB 使用 FoundationDB Key 的自然排序 实现索引 @2022 OpenPie. All rights reserved. OpenPie Confidential mstore — FoundationDB上的Catalog 使用和 Postgres 相同方式存储元数据 —— 将元数据存储在系统表中 实现新的基于key-value的存储来存放系统表 @2022 OpenPie0 码力 | 45 页 | 1.32 MB | 1 年前3
共 18 条
- 1
- 2













