云时代下多数据计算引擎的设计与实现rights reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代下多数据计算引擎的设计与实现 郭罡 CTO 拓数派(OpenPie) @2024 OpenPie. All rights reserved. OpenPie Confidential 关 于 拓 数 派 核心团队来自于各大厂名校,有丰富的数据库(Greenplum,DB2,ClickHouse等)研发 和产业经验. • 产品 πDataCS:多计算引擎,包括自研分布式数据库PieCloudDB,自研分布式向量数据库 等. • PieCloudDB 存储底座是各计算引擎的载体. • 已落地或者正在落地:IoT、金融、新能源、医疗等行业. @2024 OpenPie. All rights reserved reserved. OpenPie Confidential 云时代 数据计算 多数据模态支持 广泛的生态支持 “一份数据,多引擎计算”的述求 让数据流动起来 @2024 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 简介 一款云原生分布式 分析型数据库 • 元数据、用户数据、计算完全分离. • 用户数据(code0 码力 | 15 页 | 3.09 MB | 1 年前3
πDataCS赋能工业软件创新与实践企业简介 l OpenPie是立⾜于国内的基础数据计算领域⾼科技创新机构; l 拥有强⼤的数据库内核研发团队、数据科学团队和数字化 转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎⽅ 向进⾏创新,全面拥抱AI技术趋势。 企业⽂化 使命:数据计算,只为新发现 愿景:成为立⾜中国基础数据计算领域的全球顶级⾼科技创新机构 价值观:以⼈为本、开放创新、拥抱变化、诚信正直 拓数派中国总部与全球分支机构 云原⽣数仓PieCloudDB 社区版与商业版正式发布 极速进⼊成长期 Day-1 2023 引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会 重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原⽣虚拟数仓 拓数派基于阿里云构建公共云数据仓库服务 正式上线 6月 上榜 EqualOcean 2022年源自中国值 得关注的新锐全球化科技品牌 与东吴证券在数仓虚拟化和信创领域展开试点合作 业领袖” 4月 冯雷被评为杭州市所有的独角兽和准独角兽企 业中唯⼀“年度创业⼈物” 打造⼤模型时代 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派⼊选中国信通院“铸基计划”「⾼质量数字化 转型产品及服务全景图」 拓数派再次携WAIC创建智能驾驶科技分会 杭州萧⼭区政府“⼀事⼀议”支持政策获0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB Database 产品白皮书 Reserved, Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 piecloudDB,云原生虚拟数仓 PieCloudDB 产品概述 PieCloudDB 产品架构 PieCloudDB 产品特性 PieCloudDB 产品核心技术 PieCloudDB8 相关人员掌握复杂的技术 栈,技术的更新迁代迅速,相关人员需保持积极的知识更新意识。根关人才市场较小,人才芽乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将应用向云上迁移,而越来越多的数据也流向云上。公有云带来了众多优势: PieCloudDB,运用全新 eMPP (elastic Massive Parallel Processing) 分布式技术,旨在为企业提供包含实时处理、 移级扩缩容、弹性计算、集成数据分析等强大功能的云上数据存储和计算引擎,助力企业实现数据价值最大化。 pieCloudDB 为企业构建坚如般石的虚拟数仓,以云资源最优化配置实现无限数据计算可能,基于新一代数仓虚拟 化,提供云数仓智能化解决方案,助力企业建立以数据资产为核心的竞争整垒。0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书OpenPie All Right Reserved . 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 PieCloudDB,云原生虚拟数仓 PieCloudDB 产品概述 PieCloudDB 产品架构 PieCloudDB 产品特性 握复杂的技术 栈,技术的更新迭代迅速,相关人员需保持积极的知识更新意识。相关人才市场较小,人才匮乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 5 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将应用向云上迁移,而越来越多的数据也流向云上。公有云带来了众多优势: 整体架构分为三个层次,包括基础设施层、数据处理层及数据应用层。详细阐述如下: 基础设施层 基础设施层为 PieCloudDB 提供计算资源、存储资源和网络资源,PieCloudDB 支持部署在物理服务器、虚拟机以及容 器中,同时也提供 PieCloudDB 公有云 SaaS 服务。 数据处理层 PieCloudDB 核心服务层,提供了并行数据处理能力,拥有元数据节点、计算节点、存储节点以及云原生管控平台节0 码力 | 17 页 | 2.02 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优化计算瓶颈、充分利用和 计算机和经济学,获得物理经济学双学位。(北大报道)研究生就读卡内基梅隆大学。(InfoQ报道) • 归国前就职于美国Oracle公司数据库服务器技术部门,是Oracle Cloud Control的分布式调动引擎的 主要贡献者之一。 • 因为参与Pivotal的拆分创建、C轮融资和IPO成功,以及主导的Greenplum产品在全球范围的开源影 响力,被《数字商业周刊》选为2019年度封面人物。(《数商周刊》报道) 云原生数仓PieCloudDB 社区版与商业版正式发布 极速进入成长期 Day-1 2023引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会 重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原生虚拟数仓 拓数派基于阿里云构建公共云数据仓库服务 正式上线 6月 上榜 EqualOcean 2022年源自中国值 得关注的新锐全球化科技品牌 与东吴证券在数仓虚拟化和信创领域展开试点合作0 码力 | 29 页 | 7.46 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 • 错误处理 • 任务调度总控 pdbconduct • 数据源提取(插件/客户端工具) • 计算节点 Foreign Table, Formatter0 码力 | 29 页 | 5.24 MB | 1 年前3
PieCloudDB:云原生分布式虚拟数仓的诞生之旅Confidential PieCloudDB简介 (cont.) • PieCloudDB产品⽬标 • 安全可靠 使⽤简单 功能⻬全 性能极致 • 公有云、私有云、混合云 • ⼀个构建于⼤数据计算引擎上的⼤数据计算平台 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 (cont.) • PieCloudDB有个很优秀的智能云原⽣平台 Confidential 构建之路 - 数据存储 • 数据存储设计考虑 • S3访问友好(各种统计数据⽤于data skipping、查询加速等) • OLAP友好(PG的HEAP是OLTP⾏存引擎) • 计算引擎加速友好(SIMD, SIMT, etc) @2022 OpenPie. All rights reserved. OpenPie Confidential 构建之路 - 数据存储 • 使⽤缓存,⻓远来说分布式缓存. • 虚拟数仓:⼀致性Hash存储缓存⽂件. • Data Skipping (⽐如Block Skipping,预聚集,etc). • S3访问通⽤优化:并⾏化、预读、异步、Mpp引擎"steal". • C++抽象接⼝,访问更多的storage provider (HDFS, NAS, etc). • …... @2022 OpenPie. All rights reserved0 码力 | 24 页 | 2.01 MB | 1 年前3
AGI 趋势下的云原生数据计算系统拥有强大的数据库内核研发团队、数据科学家团 队和数字化转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据 计算引擎方向进行创新,全面拥抱AI技术趋势。 企业介绍 云原生数据计算系统 围绕数据组织云原生计算系统, 重构数据存储和计算,一份存 储,多引擎数据计算,全面升 级大数据系统至大模型时代。 02 中国AGI发展趋势 中国AGI市场融资非常活跃, AGI顶级人才非常欠缺,整 AI Agent作为新的研究方向,开始受至越来越多的关注。 AI Agent成为推动AI技术革命的关键力量 云原生数据计算系统 围绕数据组织云原生计算系统,重构数据存储和计算, 一份存储,多引擎数据计算,全面升级大数据系统至大 模型时代。 02 云原生数据计算系统 大模型数据计算系统概览 • Data Sharing 技术原生支持数据要素流转 • 中国唯一全自研的Table Format技术 全链路加密保证数据安全 • JANM存储引擎等技术有效组织数据配合大模型精调 u 首创云原生eMPP架构 u 国内数仓虚拟化技术提出者 云原生数据计算系统 PieDataCS数据底座为AI大模型赋能 云原生数据计算系统 虚拟数仓引擎设计 云原生数据计算系统 分布式优化器设计 云原生数据计算系统 结构化和半结构化数据同步 云原生数据计算系统 向量计算引擎设计 云原生数据计算系统 多模态数据共享0 码力 | 26 页 | 2.84 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库架构 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 核心架构特点 元数据服 务 eMPP分布式 引擎 存储服务 透明数据加密 @2022 OpenPie. All rights reserved. OpenPie Confidential D a t a C o m p u t i n g f Confidential D a t a C o m p u t i n g f o r N e w D i s c o v e r i e s 数 据 计 算 , 只 为 新 发 现 02 分布式引擎 @2022 OpenPie. All rights reserved. OpenPie Confidential 计算 • MPP • 将一个单一计算任务在大量独立的计算机上并行执行。 • 数 据 计 算 , 只 为 新 发 现 03 用户数据存储 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建新一代云原生存储引擎 • Multi-Could 云上设施 • 对象存储 (数据共享,存算分离) • 兼容HDFS,NAS,本地磁盘 • 公有云,私有云,混合云 • 现代的硬件 • CPU/GPU 高速缓存访问0 码力 | 45 页 | 1.32 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现⺫的: • 减轻FoundationDB集群负担 • 加速查询优化(⺴络延迟远⾼于内存延迟) • 以Postgres原⽣的元数据缓存概念为基础,优化重构实现适⽤于 多集群架构 ⽤户数据存储引擎 • PAX(⾏列混存)配以⾼效压缩 • Block⽂件为⼀个存储(MVCC)单位 • 辅助信息存储⽤于计算优化 • 设计考虑: • ⾼效和精准的统计信息收集 • 存储和计算成本 • 各种计算优化 数据和/或辅助信息缓存,同时⼀致性Hash减少数据移动 • 读取优化(⽐如异步并⾏等) • 计算优化(各种功能特性持续优化中) • 很多复杂OLAP查询如果不是IO瓶颈,不会受制于它 • …... 计算引擎之优化器 PieCloudDB Optimizer 是⼀个基于eMPP架构的云原⽣分布式优化器,它 可以为海量数据集上的复杂OLAP查询提供最优的查询计划。 • 分布式优化器 • 处理复杂OLAP查询 更多⾼阶计算功能 (cont.) • 预计算:很快⾯世 • Data skipping:⽂件裁剪⽀持很快⾯世 • 更多计算引擎⼯作在路上:SIMD, runtime filter,late materization,...... 分布式计算引擎 • MPP弹性计算引擎:按需付费 • 租户隔离(彼此不影响) • ⾼可⽤(⾃动处理各种错误) • ⾼并发 PieCloudDB⽣态 • 各种外0 码力 | 31 页 | 1.43 MB | 1 年前3
共 16 条
- 1
- 2













