AGI 趋势下的云原生数据计算系统AGI趋势下的云原生数据计算系统 演讲人:徐阳 拓数派:大模型数据计算系统先行者 l 拓数派( OpenPie)是立足于国内的基础数据计 算领域高科技创新机构; l 拥有强大的数据库内核研发团队、数据科学家团 队和数字化转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据 计算引擎方向进行创新,全面拥抱AI技术趋势。 企业介绍 云原生数据计算系统 围绕数据组织云原生计算系统, 规模发展将由企业市场引领主导,到2030年企业市场规模预计达到3024.6亿元人民币。 国内AGI市场增长趋势预测 说明:数据来自InfoQ研究中心 中国AGI发展趋势 l 中国AGI市场自下向上分为基础设施层、模型层、中间层和应用层四层,这四层结构共同构成了中国AGI市场的技术框架。 国内AGI市场分层 中国AGI发展趋势 l 在通往AGI的征途上,AI Agent正逐渐成为探索的0 码力 | 26 页 | 2.84 MB | 1 年前3
云时代下多数据计算引擎的设计与实现rights reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代下多数据计算引擎的设计与实现 郭罡 CTO 拓数派(OpenPie) @2024 OpenPie. All rights reserved. OpenPie Confidential 关 于 拓0 码力 | 15 页 | 3.09 MB | 1 年前3
大模型时代下向量数据库的设计与应用大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心0 码力 | 28 页 | 1.69 MB | 1 年前3
πDataCS赋能工业软件创新与实践:全面升级Hadoop⼤数据和Greenplum数仓⾄云原⽣数据平台 是⼀个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题, 是⼤数据技术中的基⽯。让用户可以在不了解分布式底层细节的情况下,开发 分布式程序,以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 型 和 私 域 数 据 结 合 做 垂 直 应 用 @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS优势3 :云原⽣下eMPP计算引擎全面颠覆MPP技术,⼤模型数据计算新范式 @2024 OpenPie. All rights reserved. OpenPie Confidential 计算引擎之 PieClo 通过把聚集操作下推到连接操作之前去执⾏,极⼤的减少连接操作需要处理的数据量,使得查询性能显 著提升。在很多场景下经过严格的测试,聚集下推会取得百倍或千倍的性能提升。 达奇 PieCloudDB Optimizer Ø 基于eMPP架构的云原⽣分布式 优化器; Ø 为海量数据集上的复杂OLAP查 询提供最优的查询计划。 预计算 根据对象存储的特性,为每⼀个数据块预先计算好块内数据的聚集值。通过把聚集操作下推到对数据表0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB 的云原生之路品 理 念 最 终 实 现 大 数 据 愿 景 Big Data Promises Finally Come True IvorySQL开源数据库社区 • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难(后期升级部署困难) • 木桶效应 • 大量数据孤岛问题 计算层 存储层 MPP: Massive Parallel Processing eMPP 版 一 体 机 IvorySQL开源数据库社区 P i e C l o u d D B 新 一 代 云 原 生 虚 拟 数 仓 核 心 价 值 多个数仓归并至云虚拟数仓,打破传统数仓场景下 数据孤岛,解决数据多副本问题,帮助企业降低数 仓管理复杂度,以更低的成本实现存算资源在云上 更灵活的配置。 TDE 技术保证了所有数据在落盘前完成加密,服务 器无感知技术(Serverless)利用云上无限计算资 IvorySQL开源数据库社区 01 元数据管理 IvorySQL开源数据库社区 实现多节点共同访问的数据存储 实现分布式锁 • 高可用和多集群 • Multi-master • 多机并发访问 • 分布式环境下的多版本 元数据管理的设计目标 IvorySQL开源数据库社区 mstore — FoundationDB上的Catalog 基于 MVCC 的事务隔离级别 将元组以 key-value 的形式存储0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路Promises Finally Come True @2022 OpenPie. All rights reserved. OpenPie Confidential • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难(后期升级部署困难) • 木桶效应 • 大量数据孤岛问题 计算层 存储层 MPP: Massive Parallel Processing eMPP reserved. OpenPie Confidential P i e C l o u d D B 新 一 代 云 原 生 虚 拟 数 仓 核 心 价 值 多个数仓归并⾄云虚拟数仓,打破传统数仓场景下 数据孤岛,解决数据多副本问题,帮助企业降低数 仓管理复杂度,以更低的成本实现存算资源在云上 更灵活的配置。 TDE技术保证了所有数据在落盘前完成加密,服务 器⽆感知技术(Serverless)利⽤云上⽆限计算资源 OpenPie Confidential 元数据管理的设计目标 实现多节点共同访问的数据存储 实现分布式锁 • 高可用和多集群 • Multi-master • 多机并发访问 • 分布式环境下的多版本 @2022 OpenPie. All rights reserved. OpenPie Confidential mstore — FoundationDB上的Catalog 基于 MVCC0 码力 | 44 页 | 1.64 MB | 1 年前3
PieCloudDB Database 产品白皮书 数据瑰岛 随着业务的发展,数据量的增加,和信息化建设的需求,企业会为不同部门建设相应的业务信息化系统。我们在真实 客户场景中,常常看到很多企业有成百上千个集群,但这些集群的元数据往往都是一样的。这种情况下,很多元数据 会在不同集群间存在不一致的版本信息。此外,如果企业需要做跨集群的访问,往往非常困难,会造成数据孤岛的存 在。 运维成本 对于传统 MPP 数仓,企业往往会需要配备运维人力,且对运维、 数据空间的同时,数量级降低数仓 成本,打开无限数据计算空间,推进AVBI到下一个精度。PieCloudDB在eMPP分布式专利技术、服务器无感知 《(Serverless)及TDE等多项核心技术加持下,为企业构建高安全,高可靠,高在线 【坚如大石) 的云原生虚拟数仓, 助力企业实现数据价值最大化,更好地赋能业务发展并走向绿色,成为新一代Al数据计算基础设施的一个典范。 PiecloudDB 产品架构 支持 TPC-H 和 TPC-D5 等测试,实现 了包括聚集下准、Block Skipping 等功能模块,大大缩短执行时间,高效的数据查询提高了数据分析的实时性。 1. 票集下推 在执行聚集函数的过程中,查询优化器会把聚集操作下推到连接操作之前去执行,可以极大地减少连 接操作需要处理的数据量,使得查询性能显著提升。在很多分析型场景下,聚集下推会取得百倍或千 售的性能提升。 2.Block skipping0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生数据库PieCloudDB 性能优化之路on foo.a = bar.c; 外连接本身有严格的连接条件,且该连接条件引用了来自 nullable side 的某一变量,且该变量被上 层的约束条件限定为 NULL 值 • 在只有内连接的情况下,约束条件可以直接下推到它的自然语义位置 • 如果有外连接存在,那么约束条件的下推可能会受到限制 • 对于外连接自己的连接条件,如果它引用了nonnullable side的表,那么它就无法被下推到该外连 Materialize -> Seq Scan on bar (5 rows) • 对于外连接上层的约束条件,如果它引用了nullable side的表,那么它就无法被下推到该外连接之 下 # EXPL AIN (COSTS OFF) SELECT * FROM foo LEFT JOIN bar ON TRUE WHERE COALESCE(bar.c, 1) = 42; QUERY Scan on bar (5 rows) • 主要处理查询语句中FROM和WHERE部分 • 同时也会考虑到ORDER BY的信息 • 代价驱动 • 为基表生成扫描路径,并计算扫描路径的代价和结果集大小 • 搜索整个连接顺序空间,为连接操作生成连接路径 • O(n!) • 动态规划 • 遗传算法 • 考虑外连接对连接顺序的限制 (A leftjoin B on (Pab)) innerjoin0 码力 | 26 页 | 711.44 KB | 1 年前3
PieCloudDB Database V2.1 版本说明管理、S3 等。 • Vacuum 优化:在元数据层通过快速过滤不需要 vacuum 的数据,从而实现 vacuum 加速。 • 存储引擎 简墨(JANM) 异常处理的优化: 避免各种异常情况下数据残留。 • 简墨(JANM)分布式处理增强:更高效的元数据采集和分发,提升用户查询响 应时间,降低系统负载 • 简墨(JANM)动态分配读取文件增强 dispatch 用户权限优化:通过更加清晰的 UI 设计,为用户提供一体化的权限管理 • 注册选项增加:增加了手机注册选项,用户现可选择通过手机或邮件进行用户注 册 • 稳定性优化: o SQL 结果集缓存优化 o 优化端到端访问控制管理和证书管理,增强安全能力 o 一键部署优化 • 数据洞察优化: o SQL 结果页面 UI 更新,界面更加简洁优雅。优化超长结果显示,可支持选中结0 码力 | 3 页 | 257.15 KB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现是⼀个基于eMPP架构的云原⽣分布式优化器,它 可以为海量数据集上的复杂OLAP查询提供最优的查询计划。 • 分布式优化器 • 处理复杂OLAP查询 • 云原生优化器 处理复杂OLAP查询 多表连接的最 优顺序搜索 多阶段聚集 分区表的静态 和动态裁剪 相关子查询的 提升转换 CTE和递归CTE 的优化 等等 更多⾼阶计算功能 • 聚集下推:1.0已经⽀持,在⼀些情况下可以⼗倍百倍更多倍提升 • SELECT0 码力 | 31 页 | 1.43 MB | 1 年前3
共 16 条
- 1
- 2













