AGI 趋势下的云原生数据计算系统AGI趋势下的云原生数据计算系统 演讲人:徐阳 拓数派:大模型数据计算系统先行者 l 拓数派( OpenPie)是立足于国内的基础数据计 算领域高科技创新机构; l 拥有强大的数据库内核研发团队、数据科学家团 队和数字化转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据 计算引擎方向进行创新,全面拥抱AI技术趋势。 企业介绍 云原生数据计算系统 围绕数据组织云原生计算系统, 重构数据存储和计算,一份存 重构数据存储和计算,一份存 储,多引擎数据计算,全面升 级大数据系统至大模型时代。 02 中国AGI发展趋势 中国AGI市场融资非常活跃, AGI顶级人才非常欠缺,整 个市场将长期保持快速增 长态势。 01 AIGC全生命周期管理 基于PieCloudML,为企业构 建统一的MaaS框架和AIGC开 发框架,对模型和AI Agent进 行高效管理。 03 案例分享 基于PieDataCS的用户案例实 Agent成为推动AI技术革命的关键力量 云原生数据计算系统 围绕数据组织云原生计算系统,重构数据存储和计算, 一份存储,多引擎数据计算,全面升级大数据系统至大 模型时代。 02 云原生数据计算系统 大模型数据计算系统概览 • Data Sharing 技术原生支持数据要素流转 • 中国唯一全自研的Table Format技术 • 云原生存储架构,元数据、数据和计算全分离 核 心 技 术 突 破0 码力 | 26 页 | 2.84 MB | 1 年前3
云时代下多数据计算引擎的设计与实现Confidential 云时代下多数据计算引擎的设计与实现 郭罡 CTO 拓数派(OpenPie) @2024 OpenPie. All rights reserved. OpenPie Confidential 关 于 拓 数 派 • 成立于2021年,以“Data Computing for New Discoveries”「数据计算,只为新发现」 为使命. • 核心团队来 • 产品 πDataCS:多计算引擎,包括自研分布式数据库PieCloudDB,自研分布式向量数据库 等. • PieCloudDB 存储底座是各计算引擎的载体. • 已落地或者正在落地:IoT、金融、新能源、医疗等行业. @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代 数据计算 多数据模态支持 广泛的生态支持 广泛的生态支持 “一份数据,多引擎计算”的述求 让数据流动起来 @2024 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 简介 一款云原生分布式 分析型数据库 • 元数据、用户数据、计算完全分离. • 用户数据(code name: Janm)支持 S3/HDFS/Posix. • 架构:Share Nothing0 码力 | 15 页 | 3.09 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。 云数据仓库产品架构 云数据仓库产品架构 云数据库仓库 UDW 服务的架构图如下所⽰: UDW 采⽤⽆共享的 MPP 架构,适⽤于海量数据的存储和计算。UDW 的架构如上图所⽰,主要有 Client、Master Node 和 Compute Node 组成。基本组成部分的功能如下: 产品架构 Greenplum数据仓库 UDW Copyright 接收客⼾端的连接请求 负责权限认证 处理 SQL 命令 调度分发执⾏计划 汇总 Segment 的执⾏结果并将结果返回给客⼾端 3. Compute Node: Compute Node 管理节点的计算和存储资源 每个 Compute Node 由多个 Segment 组成 Segment 负责业务数据的存储、⽤⼾ SQL 的执⾏ ⾼可⽤ ⾼可⽤ 产品架构 Greenplum数据仓库 UDW 2012-2021 UCloud 优刻得 10/206 2.选择计算节点机型、计算节点数量以及付费⽅式。 其中可选的机型配置有: 机型 机型 名称 名称 配置 配置 存储密集型 ds1.large 4核 24G 2000G(SATA) 存储密集型 ds1.6xlarge 24核 144G 12000G(SATA) 计算密集型 dc1.large 2核 12G 300G(SSD) 快速上⼿0 码力 | 206 页 | 5.35 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS--πDataCS简介 兼容龙蜥的云原生大模型数据计算系统 拓数派产品市场总监 吴疆 吴疆 深耕云计算和数据库行业十余年 拓数派(Openpie)产品市场总监 毕业于清华大学计算机系,先后在IBM,EMC, Pivotal,VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介 海 外 研 发 杭州拓数派科技发展有限公司(又称"OpenPie")是立足于国内,基础数据计算领域的高科技创新机构。 作 为 国 内 云 上 数 据 库 和 数 据 计 算 领 域 的 引 领 者 , 拓 数 派 以 “Data Computing for New Discoveries”「数据计算,只为新发现」为使命,致力于在数字原生时代,运用突破性计算理论、 独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准 公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优化计算瓶颈、充分利用和发挥数据规模优势,构建核心技术壁垒,让大模0 码力 | 29 页 | 7.46 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum................................................................................ 5 openEuler 面向多样性算计算的创新 ............................................................................................. 近日,Greenplum 社区和欧拉开源社区深化合作,在欧拉开源操作系统(openEuler, 简称“欧拉”)编译测试了高级分 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点, 型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源社区强强联手,不仅是双方业务用户所期盼的,同时也是 Greenplum 社区与对中国本地开源社0 码力 | 17 页 | 2.04 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数 据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢 所得的应用场景,美团平台使用Kylin作为公司的主要MOLAP引擎。MOLAP是预计算生产,在增 量业务,预设维度分析场景下表现良好,但在变化维的场景下生产成本巨大。例如,如果使用最 新商家类型回溯商家近三个月的表现,需要重新计算三个月的Cube,需花费几个小时,来计算近 TB的历史数据。另外,应对非预设维度分析,MOLAP模型需要重新进行适配计算,也需要一定的 迭代工作。 明细数据的交互 业务分析除了宏观数 数据爆炸,每日使用最新维度对历史数据进行回溯计算。在Kylin的MOLAP模式下存在如下问题: 历史数据每日刷新,失去了增量的意义。 每日回溯历史数据量大,10亿+的历史数据回溯。 数据计算耗时3小时+,存储1TB+,消耗大量计算存储资源,同时严重影响SLA的稳定性。 预计算的大量历史数据实际使用率低下,实际工作中对历史的回溯80%集中在近1个月左 右,但为了应对所有需求场景,业务要求计算近半年以上的历史。 不支持明细数据的查询。0 码力 | 8 页 | 429.42 KB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案Proprietary Legacy Scalable, Open Software-Based Commodity HW • 用户人数 • 安全度 • 查询、报告、分析的数量 • 数据的高度多样性 • 大量定制数据 • 监管要求 商务智能/数据仓库发展趋势 一切都在增长! 数据仓库工作量:数据膨胀 面临的新难题是如何处理大规模数据 过去的10年 现在 HPC 企业 SME 企业数据集合:主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 • 确保关键任务的可靠性 • 最出色的性能 • 高度灵活性 • 逐步扩展计算能力 • 动态措施 • 数据访问: • 在一个系统中协调所有企业数据的位置 • 可以通过任何语言(SQL、M/R等)进行分析 14 强大并且不断扩展的合作伙伴网络 硬件供应商 商务智能工具 式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术(由Google普及)的产品 • 采用新的编程模型,在商用硬件上并行处理和执行0 码力 | 45 页 | 2.07 MB | 1 年前3
Apache ShardingSphere 中文文档 5.0.0概览 星评增长时间线 贡献者增长时间线 Apache ShardingSphere 产品定位为 Database Plus,旨在构建多模数据库上层的标准和生态。它关 注如何充分合理地利用数据库的计算和存储能力,而并非实现一个全新的数据库。ShardingSphere 站在 数据库的上层视角,关注他们之间的协作多于数据库自身。 连接、增量和可插拔是 Apache ShardingSphere shardingsphere 文件用于存储配置信息。 3.2. 运行模式 13 Apache ShardingSphere document, v5.0.0 3.2.4 集群模式 适用于分布式场景,它提供了多个计算节点之间的元数据共享和状态协调。需要提供用于分布式协调的 注册中心组件,如:ZooKeeper、Etcd 等。 3.3 DistSQL 3.3.1 背景 DistSQL(Distributed 社区,提供新颖思路和令人兴奋的功能。 4.1 数据库兼容 4.1.1 背景 随着通信技术的革新,全新领域的应用层出不穷,推动和颠覆整个人类社会协作模式的革新。数据存量 随着应用的探索不断增加,数据的存储和计算模式无时无刻面临着创新。 面向交易、大数据、关联分析、物联网等场景越来越细分,单一数据库再也无法适用于所有的应用场景。 与此同时,场景内部也愈加细化,相似场景使用不同数据库已成为常态。由此可见,数据库碎片化的趋0 码力 | 385 页 | 4.26 MB | 1 年前3
Apache ShardingSphere 中文文档 5.4.13 2.1 连接:打造数据库上层标准 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2 增强:数据库计算增强引擎 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3 可插拔:构建数据库功能生态 . . . . . 39 8.5.4 应用场景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 计算节点过载保护 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 存储节点限流 . . . . . . 393 SQL 翻译 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394 分片审计算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395 脱敏算法 . . . . . . .0 码力 | 530 页 | 4.49 MB | 1 年前3
Apache ShardingSphere 中文文档 5.3.23 2.1 连接:打造数据库上层标准 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2 增强:数据库计算增强引擎 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3 可插拔:构建数据库功能生态 . . . . . 39 8.5.4 应用场景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 计算节点过载保护 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 存储节点限流 . . . . . . 375 SQL 翻译 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 分片审计算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378 脱敏算法 . . . . . . .0 码力 | 508 页 | 4.44 MB | 1 年前3
共 91 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10













