AGI 趋势下的云原生数据计算系统AGI趋势下的云原生数据计算系统 演讲人:徐阳 拓数派:大模型数据计算系统先行者 l 拓数派( OpenPie)是立足于国内的基础数据计 算领域高科技创新机构; l 拥有强大的数据库内核研发团队、数据科学家团 队和数字化转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据 计算引擎方向进行创新,全面拥抱AI技术趋势。 企业介绍 云原生数据计算系统 围绕数据组织云原生计算系统, 重构数据存储和计算,一份存 重构数据存储和计算,一份存 储,多引擎数据计算,全面升 级大数据系统至大模型时代。 02 中国AGI发展趋势 中国AGI市场融资非常活跃, AGI顶级人才非常欠缺,整 个市场将长期保持快速增 长态势。 01 AIGC全生命周期管理 基于PieCloudML,为企业构 建统一的MaaS框架和AIGC开 发框架,对模型和AI Agent进 行高效管理。 03 案例分享 基于PieDataCS的用户案例实 Agent作为新的研究方向,开始受至越来越多的关注。 AI Agent成为推动AI技术革命的关键力量 云原生数据计算系统 围绕数据组织云原生计算系统,重构数据存储和计算, 一份存储,多引擎数据计算,全面升级大数据系统至大 模型时代。 02 云原生数据计算系统 大模型数据计算系统概览 • Data Sharing 技术原生支持数据要素流转 • 中国唯一全自研的Table Format技术0 码力 | 26 页 | 2.84 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS--πDataCS简介 兼容龙蜥的云原生大模型数据计算系统 拓数派产品市场总监 吴疆 吴疆 深耕云计算和数据库行业十余年 拓数派(Openpie)产品市场总监 毕业于清华大学计算机系,先后在IBM,EMC, Pivotal,VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介 海 外 研 发 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优化计算瓶颈、充分利用和发挥数据规模优势,构建核心技术壁垒,让大模 型 社区版与商业版正式发布 极速进入成长期 Day-1 2023引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会 重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原生虚拟数仓 拓数派基于阿里云构建公共云数据仓库服务 正式上线 6月 上榜 EqualOcean 2022年源自中国值 得关注的新锐全球化科技品牌 与东吴证券在数仓虚拟化和信创领域展开试点合作0 码力 | 29 页 | 7.46 MB | 1 年前3
PieCloudDB Database 产品白皮书 > 岛 网 ioor mauaeaa 和 i Gartner: 数据库中国市场指南 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 传统数据仓库的计算和存情是| 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一, 报表结! 传统数据仓库无法及时扩 导致大数据系统天 价值所带来的商业机会 用户在扩 必须同时扩 企业遇到负 时刻或需要紧急得到某个 法弹性、快速地分析业务数据,错失了充分挖掘数据 Openpie | PiecloudDB 基于eMPP 性能都会受制于老的节点。因此真实生产环境 中,常常见到客户在需要扩容时,采取重新新建集群的方式。 数据瑰岛 随着业务的发展,数据量的增加,和信息化建设的需求,企业会为不同部门建设相应的业务信息化系统。我们在真实 客户场景中,常常看到很多企业有成百上千个集群,但这些集群的元数据往往都是一样的。这种情况下,很多元数据 会在不同集群间存在不一致的版本信息。此外,如果企业需要做跨集群的访问,往往非常困难,会造成数据孤岛的存0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书然而,随着数据量的不断攀升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 4 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器 例强绑定,因此用户在扩容时,必须同时扩 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一定的挑战。当企业遇到负载高峰时刻或需要紧急得到某个 报表结果时,传统数据仓库无法及时扩资源,导致大数据系统无法弹性、快速地分析业务数据,错失了充分挖掘数据 价值所带来的商业机会。 传 统 数 据 仓 库 架 构 成 本 高 昂 传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 于老的节点。因此真实生产环境 中,常常见到客户在需要扩容时,采取重新新建集群的方式。 数 据 孤 岛 随着业务的发展,数据量的增加,和信息化建设的需求,企业会为不同部门建设相应的业务信息化系统。我们在真实 客户场景中,常常看到很多企业有成百上千个集群,但这些集群的元数据往往都是一样的。这种情况下,很多元数据 会在不同集群间存在不一致的版本信息。此外,如果企业需要做跨集群的访问,往往非常困难,会造成数据孤岛的存0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB:云原生分布式虚拟数仓的诞生之旅18年+基础软件⼀线经验 • 9年:Unix/Linux应⽤和内核开发、虚拟化(芯⽚KVM内核⽀持)、⾼速 ⽹络开发(NIC驱动、IB、DPDK、OVS offload)等. • 2年:分布式系统(存储和缓存)开发、云计算平台架构. • 7年+:数据库内核开发 (HAWQ、PG、Greenplum、PieCloudDb). • 现在负责拓数派的整个研发管理. • 毕业于中国科学技术⼤学(专业语⾳识别) OpenPie Confidential PieCloudDB简介 (cont.) • PieCloudDB产品⽬标 • 安全可靠 使⽤简单 功能⻬全 性能极致 • 公有云、私有云、混合云 • ⼀个构建于⼤数据计算引擎上的⼤数据计算平台 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 (cont.) • All rights reserved. OpenPie Confidential 构建之路 (内核Only) • 第⼀步单机Postgres版本上实现存算分离 • 第⼆步分布式化 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建之路 - 数据存储 • 数据存储设计考虑 • S3访问友好(各种统计数据⽤于data skipping、查询加速等)0 码力 | 24 页 | 2.01 MB | 1 年前3
πDataCS赋能工业软件创新与实践社区版与商业版正式发布 极速进⼊成长期 Day-1 2023 引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会 重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原⽣虚拟数仓 拓数派基于阿里云构建公共云数据仓库服务 正式上线 6月 上榜 EqualOcean 2022年源自中国值 得关注的新锐全球化科技品牌 与东吴证券在数仓虚拟化和信创领域展开试点合作 拓数派⼤模型数据计算系统正式亮相,让AI模型更⼤更快 @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS的产品理念及定位 数据 计算 模型 灵活扩展的数据引擎,支持关系型数据库SQL、Spark/Flink 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统,以云原⽣技 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎数据计算,AI数学模型、数据和 计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 ,赋能⾏业AI场景应用。 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 @2024 OpenPie0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB 的云原生之路极速进入成长期 Day-1 2023 引领数据计算时代到来 1月 PieCloudDB 爱琴海版本发布 构建坚如磐石的 eMPP 云原生数仓 3月 2023拓数派战略暨新产品发布会 重磅发布 PieCloudDB「云上云」版 云原生数仓虚拟化引领数据计算时代到来 拓数派基于阿里云构建公共云数据仓库服务 正式上线 IvorySQL开源数据库社区 免费试用 PieCloudDB 云上云版:https://app 云原生数据库 PieCloudDB 简介 IvorySQL开源数据库社区 数据 计算 发现 数据:云上数据既是隔离也是连通。从安全的角度是隔离,同时具 备数据共享的能力。 例如:投资管理系统和财务管理系统可以各自管理,按需分享。 计算:云上计算资源可以弹性分配。有查询计算任务的时候按需启动, 按照使用时间和规模计算成本,而不是购买大量服务器静置为不确定 的使用额外支付成本。 发现:在云 Massive Parallel Processing 传统 PC 时代数据库 PieCloudDB 云原生时代数据库 突 破 创 新 eMPP 分布式专利技术加持 PieCloudDB 为企业构建「坚如磐石」的云原生虚拟数仓 IvorySQL开源数据库社区 虚 拟 化 技 术 创 新 为 行 业 高 质 量 发 展 注 入 加 速 度 云 计 算 时 代 的 到 来 数 据 计 算 时0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路极速进入成长期 Day-1 2023 引领数据计算时代到来 1月 PieCloudDB 爱琴海版本发布 构建坚如磐石的eMPP云原生数仓 3月 2023拓数派战略暨新产品发布会 重磅发布PieCloudDB「云上云」版 云原生数仓虚拟化 引领数据计算时代到来 拓数派基于阿里云构建公共云数据仓库服务 正式上线 @2022 OpenPie. All rights reserved. OpenPie rights reserved. OpenPie Confidential 数据 计算 发现 数据:云上数据既是隔离也是连通。从安全的⾓度是隔离,同时具 备数据共享的能⼒。 例如:投资管理系统和财务管理系统可以各⾃管理,按需分享。 计算:云上计算资源可以弹性分配。有查询计算任务的时候按需启动, 按照使⽤时间和规模计算成本,⽽不是购买⼤量服务器静置为不确定 的使⽤额外⽀付成本。 发现:在云 Massive Parallel Processing 传 统 P C 时 代 数 据 库 PieCloudDB云原生时代数据库 突 破 创 新 eMPP分布式专利技术加持 PieCloudDB为企业构建「坚如磐石」的云原生虚拟数仓 @2022 OpenPie. All rights reserved. OpenPie Confidential 虚 拟 化 技 术 创 新 为 行 业 高 质 量0 码力 | 44 页 | 1.64 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库OpenPie Confidential mstore — FoundationDB上的Catalog 使用和 Postgres 相同方式存储元数据 —— 将元数据存储在系统表中 实现新的基于key-value的存储来存放系统表 @2022 OpenPie. All rights reserved. OpenPie Confidential D a t a C o m p u t i n g r i e s 数 据 计 算 , 只 为 新 发 现 03 用户数据存储 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建新一代云原生存储引擎 • Multi-Could 云上设施 • 对象存储 (数据共享,存算分离) • 兼容HDFS,NAS,本地磁盘 • 公有云,私有云,混合云 • 现代的硬件 • CPU/GPU Confidential 构建新一代云原生存储引擎 • 数据分布和弹性 • 分布式eMPP架构 (一致性Hash) • 本地数据减少高延时的云存储访问 • 减少数据移动 • 扩缩容最少的数据移动 • 数据安全性 • 透明数据加密 • 三级密钥 • 实时加解密 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建新一代云原生存储引擎0 码力 | 45 页 | 1.32 MB | 1 年前3
大模型时代下向量数据库的设计与应用数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 避免并发调用gpu • 查询请求按批单线程提交 PieCloudVector • 兼容国产硬件和操作系统 PieCloudVector • 通过信通院测试 案例分析 - 东吴证券秀财gpt • 采用自研大模型东吴秀财GPT + LangChain开发框架 + PieCloudVector向量数据库构建了AIGC应 用平台,接入了交易应用的结构化数据和非结构化数据,其中非结构化数据主要是文本类数据 第1的客座导师品牌,msup以 整合全球领先经验实践为己任,为中国产业快速发展提供智库。 高可用架构主要关注互联网架构及高可用、可扩展及高性能领域的知识传播。 订阅用户覆盖主流互联网及软件领域系统架构技术从业人员。 高可用架构系列 社群是一个社区组织,其精神是“分享+交流”,提倡社区的人人参与,同时从社 区获得高质量的内容。0 码力 | 28 页 | 1.69 MB | 1 年前3
共 19 条
- 1
- 2













