 云原生虚拟数仓 PieCloudDB 的架构和关键模块实现Confidential • 在世界范围内的统计信息显示,Nosql和数据湖已经不在数据分析 领域占有主要市场 • Nosql和数据湖缺少很多支持数据分析的重要特性 o 缺少在高并发场景下的隔离性和一致性 o 和现有的BI工具很难集成 • 关系型数据库已经重新成为数据分析的主要平台 NoSQL 和数据湖已经不再是数据分析的主要平台 @2022 OpenPie. All rights reserved 专用引擎/工具(例如图形数据库)通常难以与记录系统集成,限制 了分析和创新的操作化 NoSQL和数据湖为基础的基础设施需要的分析工具不容易集成和部署 @2022 OpenPie. All rights reserved. OpenPie Confidential • 公有云无限的计算池可以提供理想的弹性计算资源 • 公有云廉价且无限容量的对象存储 • 传统数仓缺乏弹性和存算分离,难以利用公有云的优势 以关系型数据库为基础的数据仓库很难适应云环境 数据的移动 • Segment节点不直接访问系统表,事务和锁 • 在扩张时只需要在新的虚拟机节点上部署二进制并向元数据服务注册 @2022 OpenPie. All rights reserved. OpenPie Confidential • Master 节点和 FoundationDB 通过事务的方式协同实现了分布式的事务和锁 • 系统表以 mstore 的方式存储在 FoundationDB0 码力 | 43 页 | 1.14 MB | 1 年前3 云原生虚拟数仓 PieCloudDB 的架构和关键模块实现Confidential • 在世界范围内的统计信息显示,Nosql和数据湖已经不在数据分析 领域占有主要市场 • Nosql和数据湖缺少很多支持数据分析的重要特性 o 缺少在高并发场景下的隔离性和一致性 o 和现有的BI工具很难集成 • 关系型数据库已经重新成为数据分析的主要平台 NoSQL 和数据湖已经不再是数据分析的主要平台 @2022 OpenPie. All rights reserved 专用引擎/工具(例如图形数据库)通常难以与记录系统集成,限制 了分析和创新的操作化 NoSQL和数据湖为基础的基础设施需要的分析工具不容易集成和部署 @2022 OpenPie. All rights reserved. OpenPie Confidential • 公有云无限的计算池可以提供理想的弹性计算资源 • 公有云廉价且无限容量的对象存储 • 传统数仓缺乏弹性和存算分离,难以利用公有云的优势 以关系型数据库为基础的数据仓库很难适应云环境 数据的移动 • Segment节点不直接访问系统表,事务和锁 • 在扩张时只需要在新的虚拟机节点上部署二进制并向元数据服务注册 @2022 OpenPie. All rights reserved. OpenPie Confidential • Master 节点和 FoundationDB 通过事务的方式协同实现了分布式的事务和锁 • 系统表以 mstore 的方式存储在 FoundationDB0 码力 | 43 页 | 1.14 MB | 1 年前3
 πDataCS赋能工业软件创新与实践杭州拓数派科技发展有限公司 ,简称“OpenPie” 企业简介 l OpenPie是立⾜于国内的基础数据计算领域⾼科技创新机构; l 拥有强⼤的数据库内核研发团队、数据科学团队和数字化 转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎⽅ 向进⾏创新,全面拥抱AI技术趋势。 企业⽂化 使命:数据计算,只为新发现 愿景:成为立⾜中国基础数据计算领域的全球顶级⾼科技创新机构 价值观:以⼈为本、开放创新、拥抱变化、诚信正直 OpenPie. All rights reserved. OpenPie Confidential 国际顶级创始团队 原 Pivotal 中 国 领 团 队 和 原 Greenplum产品及社区核⼼成员 均已加⼊拓数派。成员毕业自 CMU、北⼤、清华和科⼤少年班 等顶级学术机构,并有成员获有 奥赛奖牌。 郭罡(Paul Guo) 合 伙 ⼈ & C T O • 中国科技⼤学少年班 • 18年+底层基础软件领域开发经验 18年+底层基础软件领域开发经验 • 原Greenplum首席内核架构师 • Apache HAWQ PMC成员 陆公瑜(Brian Lu) 合伙⼈&COO • 英国约克⼤学 • 15年+产品⽣态建设和运营管理经验 • 原Greenplum中国社区发起⼈ • Greenplum社区从0到万 冯 雷(Ray Von) 创 始 ⼈ & C E O • 浙江物理奥赛银牌得主 • 北京⼤学物理经济学双学位0 码力 | 36 页 | 4.25 MB | 1 年前3 πDataCS赋能工业软件创新与实践杭州拓数派科技发展有限公司 ,简称“OpenPie” 企业简介 l OpenPie是立⾜于国内的基础数据计算领域⾼科技创新机构; l 拥有强⼤的数据库内核研发团队、数据科学团队和数字化 转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎⽅ 向进⾏创新,全面拥抱AI技术趋势。 企业⽂化 使命:数据计算,只为新发现 愿景:成为立⾜中国基础数据计算领域的全球顶级⾼科技创新机构 价值观:以⼈为本、开放创新、拥抱变化、诚信正直 OpenPie. All rights reserved. OpenPie Confidential 国际顶级创始团队 原 Pivotal 中 国 领 团 队 和 原 Greenplum产品及社区核⼼成员 均已加⼊拓数派。成员毕业自 CMU、北⼤、清华和科⼤少年班 等顶级学术机构,并有成员获有 奥赛奖牌。 郭罡(Paul Guo) 合 伙 ⼈ & C T O • 中国科技⼤学少年班 • 18年+底层基础软件领域开发经验 18年+底层基础软件领域开发经验 • 原Greenplum首席内核架构师 • Apache HAWQ PMC成员 陆公瑜(Brian Lu) 合伙⼈&COO • 英国约克⼤学 • 15年+产品⽣态建设和运营管理经验 • 原Greenplum中国社区发起⼈ • Greenplum社区从0到万 冯 雷(Ray Von) 创 始 ⼈ & C E O • 浙江物理奥赛银牌得主 • 北京⼤学物理经济学双学位0 码力 | 36 页 | 4.25 MB | 1 年前3
 云原生虚拟数仓PieCloudDB Database产品白皮书服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时,所有机器同时并行计算,理论上最高可以 把计算时间降低到单机部署的 1/n(n为机器数量),节省了海量数据的处理时间。 传统数据仓库的计算和存储是紧密耦合的,计算资源和存储资源按某一比例强绑定,因此用户在扩容时,必须同时扩 容计算资源和存储资源,在扩缩容、运 传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统数据仓库架构存储和计算的紧密耦合,往往需要企业花费巨大的运维和时间成本,且操作繁 琐。 木 桶 效 应 传统 MPP 数据仓库架构存在“木桶效应”,集群整体执行速度取决 对集群增加计算节点,此时,无论新的计算节点性能如何好,集群总体性能都会受制于老的节点。因此真实生产环境 中,常常见到客户在需要扩容时,采取重新新建集群的方式。 数 据 孤 岛 随着业务的发展,数据量的增加,和信息化建设的需求,企业会为不同部门建设相应的业务信息化系统。我们在真实 客户场景中,常常看到很多企业有成百上千个集群,但这些集群的元数据往往都是一样的。这种情况下,很多元数据 会在不同集群间存在不0 码力 | 17 页 | 2.02 MB | 1 年前3 云原生虚拟数仓PieCloudDB Database产品白皮书服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时,所有机器同时并行计算,理论上最高可以 把计算时间降低到单机部署的 1/n(n为机器数量),节省了海量数据的处理时间。 传统数据仓库的计算和存储是紧密耦合的,计算资源和存储资源按某一比例强绑定,因此用户在扩容时,必须同时扩 容计算资源和存储资源,在扩缩容、运 传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统数据仓库架构存储和计算的紧密耦合,往往需要企业花费巨大的运维和时间成本,且操作繁 琐。 木 桶 效 应 传统 MPP 数据仓库架构存在“木桶效应”,集群整体执行速度取决 对集群增加计算节点,此时,无论新的计算节点性能如何好,集群总体性能都会受制于老的节点。因此真实生产环境 中,常常见到客户在需要扩容时,采取重新新建集群的方式。 数 据 孤 岛 随着业务的发展,数据量的增加,和信息化建设的需求,企业会为不同部门建设相应的业务信息化系统。我们在真实 客户场景中,常常看到很多企业有成百上千个集群,但这些集群的元数据往往都是一样的。这种情况下,很多元数据 会在不同集群间存在不0 码力 | 17 页 | 2.02 MB | 1 年前3
 PieCloudDB Database 产品白皮书 > 岛 网 ioor mauaeaa 和 i Gartner: 数据库中国市场指南 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 ,节省了海量数据的处理时间。 传统数据仓库架构 然而,随着数据量的不断尝升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 传统数据仓库的计算和存情是| 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一, 报表结! 传统数据仓库无法及时扩 导致大数据系统天 价值所带来的商业机会 用户在扩 必须同时扩 企业遇到负 时刻或需要紧急得到某个 传统数据仓库价格高昂的软硬件、开发运维人员的高晶薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统数据仓库架构存储和计算的紧密耦合,往往需要企业花费巨大的运维和时间成本,且操作繁 琐。 木桶效应 传统 MPP 数据仓库架构存在“木桶效应”,集群整体执行速度取决于最“短板的”节点的性能。因此,一个节点的0 码力 | 17 页 | 2.68 MB | 1 年前3 PieCloudDB Database 产品白皮书 > 岛 网 ioor mauaeaa 和 i Gartner: 数据库中国市场指南 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 ,节省了海量数据的处理时间。 传统数据仓库架构 然而,随着数据量的不断尝升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 传统数据仓库的计算和存情是| 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一, 报表结! 传统数据仓库无法及时扩 导致大数据系统天 价值所带来的商业机会 用户在扩 必须同时扩 企业遇到负 时刻或需要紧急得到某个 传统数据仓库价格高昂的软硬件、开发运维人员的高晶薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统数据仓库架构存储和计算的紧密耦合,往往需要企业花费巨大的运维和时间成本,且操作繁 琐。 木桶效应 传统 MPP 数据仓库架构存在“木桶效应”,集群整体执行速度取决于最“短板的”节点的性能。因此,一个节点的0 码力 | 17 页 | 2.68 MB | 1 年前3
 PieCloudDB Database 社区版集群安装部署手册 V2.1PieCloudDB Database 社区版集群部署和使用手册 版本:V2.1 2023 年 03 月 08 日 目录 1. 集群规划 .......................................................................................................... ............................................................................ 4 2. PIECLOUDDB 和 K8S 一起部署方案 ........................................................................................... .................................................................................... 5 2.3 更新系统包和依赖包 ................................................................................................0 码力 | 42 页 | 1.58 MB | 1 年前3 PieCloudDB Database 社区版集群安装部署手册 V2.1PieCloudDB Database 社区版集群部署和使用手册 版本:V2.1 2023 年 03 月 08 日 目录 1. 集群规划 .......................................................................................................... ............................................................................ 4 2. PIECLOUDDB 和 K8S 一起部署方案 ........................................................................................... .................................................................................... 5 2.3 更新系统包和依赖包 ................................................................................................0 码力 | 42 页 | 1.58 MB | 1 年前3
 兼容龙蜥的云原生大模型数据计算系统:πDataCS广 州 研 发 中 心 拓数派中国总部与全球分支机构 杭州拓数派科技发展有限公司(又称"OpenPie")是立足于国内,基础数据计算领域的高科技创新机构。 作 为 国 内 云 上 数 据 库 和 数 据 计 算 领 域 的 引 领 者 , 拓 数 派 以 “Data Computing for New Discoveries”「数据计算,只为新发现」为使命,致力于在数字原生时代,运用突破性计算理论、 taComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优化计算瓶颈、充分利用和发挥数据规模优势,构建核心技术壁垒,让大模 型技术全面赋能行业AI场景应用,助力合作伙伴成功,为企业创造更大的商业价值。 Maritz(届时VMware CEO,曾任微软Windows平台总负责人)和Scott Yara的支持下创建了Pivotal中国。 卡内基梅隆大学 (CMU)上海校友会主席、1024Foundation 创始人 冯雷 Ray Von • 以浙江物理奥赛银牌进入北大物理学院,在北大彼时“理科实验班”(现元培项目)浸染在数学、物理、 计算机和经济学,获得物理经济学双学位。(北大报道)研究生就读卡内基梅隆大学。(InfoQ报道)0 码力 | 29 页 | 7.46 MB | 1 年前3 兼容龙蜥的云原生大模型数据计算系统:πDataCS广 州 研 发 中 心 拓数派中国总部与全球分支机构 杭州拓数派科技发展有限公司(又称"OpenPie")是立足于国内,基础数据计算领域的高科技创新机构。 作 为 国 内 云 上 数 据 库 和 数 据 计 算 领 域 的 引 领 者 , 拓 数 派 以 “Data Computing for New Discoveries”「数据计算,只为新发现」为使命,致力于在数字原生时代,运用突破性计算理论、 taComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优化计算瓶颈、充分利用和发挥数据规模优势,构建核心技术壁垒,让大模 型技术全面赋能行业AI场景应用,助力合作伙伴成功,为企业创造更大的商业价值。 Maritz(届时VMware CEO,曾任微软Windows平台总负责人)和Scott Yara的支持下创建了Pivotal中国。 卡内基梅隆大学 (CMU)上海校友会主席、1024Foundation 创始人 冯雷 Ray Von • 以浙江物理奥赛银牌进入北大物理学院,在北大彼时“理科实验班”(现元培项目)浸染在数学、物理、 计算机和经济学,获得物理经济学双学位。(北大报道)研究生就读卡内基梅隆大学。(InfoQ报道)0 码力 | 29 页 | 7.46 MB | 1 年前3
 PieCloudDB云原生数仓虚拟化之路PieCloudDB的云原生数仓虚拟化之路 吴疆 Openpie产品和推广总监 @2022 OpenPie. All rights reserved. OpenPie Confidential @2022 OpenPie. All rights reserved. OpenPie Confidential 杭州拓数派科技发展有限公司(又称“OpenPie”),以“Data Computing 禾重元和政府科创平台在内的连续三轮战略融资。 旗下云原生分析型数据库PieCloudDB,以云计算架构为设计基础,首创 全新eMPP分布式技术,帮助企业建立竞争壁垒的同时,实现数据价值最 大化,并在新基建中承担可靠和可控的世界级云数据库底座。 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 @2022 OpenPie. All rights reserved. OpenPie Confidential 与中国人民大学成⽴实习基地,打造 中国的云原生数据库世界级智力高地 11月 4月 获得元禾重元和东吴证券Pre-A轮投资 标志着企业进入快速成长期 拓数派 正式成立 成⽴杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 12月 获得腾讯投资第⼆轮持续加注投资 得到众多知名投资机构的关注和认可 蓬 勃 发 展 的 拓 数 派 引 领 数 据 计 算 时 代 的 到 来 9月0 码力 | 44 页 | 1.64 MB | 1 年前3 PieCloudDB云原生数仓虚拟化之路PieCloudDB的云原生数仓虚拟化之路 吴疆 Openpie产品和推广总监 @2022 OpenPie. All rights reserved. OpenPie Confidential @2022 OpenPie. All rights reserved. OpenPie Confidential 杭州拓数派科技发展有限公司(又称“OpenPie”),以“Data Computing 禾重元和政府科创平台在内的连续三轮战略融资。 旗下云原生分析型数据库PieCloudDB,以云计算架构为设计基础,首创 全新eMPP分布式技术,帮助企业建立竞争壁垒的同时,实现数据价值最 大化,并在新基建中承担可靠和可控的世界级云数据库底座。 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 @2022 OpenPie. All rights reserved. OpenPie Confidential 与中国人民大学成⽴实习基地,打造 中国的云原生数据库世界级智力高地 11月 4月 获得元禾重元和东吴证券Pre-A轮投资 标志着企业进入快速成长期 拓数派 正式成立 成⽴杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 12月 获得腾讯投资第⼆轮持续加注投资 得到众多知名投资机构的关注和认可 蓬 勃 发 展 的 拓 数 派 引 领 数 据 计 算 时 代 的 到 来 9月0 码力 | 44 页 | 1.64 MB | 1 年前3
 PieCloudDB 的云原生之路分布式技术,帮助企业建立竞争壁垒 的同时,实现数据价值最大化,并在新基建中承担可靠和可控 的世界级云数据库底座。 IvorySQL开源数据库社区 2021 2022 当天即获得腾讯投资天使轮投资 成为 Day-1 准独角兽 7月 与中国人民大学成立实习基地,打造 中国的云原生数据库世界级智力高地 11月 4月 获得元禾重元和东吴证券 Pre-A 轮投资 标志着企业进入快速成长期 拓数派 拓数派 正式成立 成立杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 12月 获得腾讯投资第二轮持续加注投资 得到众多知名投资机构的关注和认可 蓬 勃 发 展 的 拓 数 派 引 领 数 据 计 算 时 代 的 到 来 9月 杭州萧山区政府“一事一议” 支持政策获批 6月 成立加拿大研发中心 7月 PieCloudDB 云原生数据库存算分离等关键技术打造完成 引领数据库行业全面走向云时代 云解决了什么? 借助于云上分布式存储,解耦存储 借助于云上虚拟化技术和之上的 IaaS,解耦 计算 池化资源,按需使用 基础软件尤其是数据平台上云已是大势所趋 用户专注于使用,运维等工作交给 IaaS/SaaS 厂商 IvorySQL开源数据库社区 上云≠云原生 弹性计算 智能化云原生平 台 多租户 • 产品要能支持存储资源和计算资源的分离 • 产品要能快速进行计算资源的弹性伸缩 IvorySQL开源数据库社区0 码力 | 47 页 | 1.80 MB | 1 年前3 PieCloudDB 的云原生之路分布式技术,帮助企业建立竞争壁垒 的同时,实现数据价值最大化,并在新基建中承担可靠和可控 的世界级云数据库底座。 IvorySQL开源数据库社区 2021 2022 当天即获得腾讯投资天使轮投资 成为 Day-1 准独角兽 7月 与中国人民大学成立实习基地,打造 中国的云原生数据库世界级智力高地 11月 4月 获得元禾重元和东吴证券 Pre-A 轮投资 标志着企业进入快速成长期 拓数派 拓数派 正式成立 成立杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 12月 获得腾讯投资第二轮持续加注投资 得到众多知名投资机构的关注和认可 蓬 勃 发 展 的 拓 数 派 引 领 数 据 计 算 时 代 的 到 来 9月 杭州萧山区政府“一事一议” 支持政策获批 6月 成立加拿大研发中心 7月 PieCloudDB 云原生数据库存算分离等关键技术打造完成 引领数据库行业全面走向云时代 云解决了什么? 借助于云上分布式存储,解耦存储 借助于云上虚拟化技术和之上的 IaaS,解耦 计算 池化资源,按需使用 基础软件尤其是数据平台上云已是大势所趋 用户专注于使用,运维等工作交给 IaaS/SaaS 厂商 IvorySQL开源数据库社区 上云≠云原生 弹性计算 智能化云原生平 台 多租户 • 产品要能支持存储资源和计算资源的分离 • 产品要能快速进行计算资源的弹性伸缩 IvorySQL开源数据库社区0 码力 | 47 页 | 1.80 MB | 1 年前3
 云原生数据库 PieCloudDB eMPP架构设计与实现ClickHouse等)研发和商务经验。 • 核⼼产品 PieCloudDB 1.0版本已于 2022.10.24 发布。 • 产品已经在⼀些⾦融、医疗等⾏业开始使⽤。 关于我 • 毕业于中国科技⼤学,AI相关专业 • 毕业 1 年后到现在⼀直从事底层基础软件开发,10多年开发经验 • 领域涉及到: • 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 VM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 扩缩容难 扩缩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 我们需要一个云原生数据库 云解决了什么? 借助于云上分布式存储,解耦存储 借助于虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据库软件上云已是大势所趋 用户专注于使用,其他事情交给IaaS/SaaS厂商 上云 ≠ 云原生 计算&存储 弹性 智能化云原生平 台0 码力 | 31 页 | 1.43 MB | 1 年前3 云原生数据库 PieCloudDB eMPP架构设计与实现ClickHouse等)研发和商务经验。 • 核⼼产品 PieCloudDB 1.0版本已于 2022.10.24 发布。 • 产品已经在⼀些⾦融、医疗等⾏业开始使⽤。 关于我 • 毕业于中国科技⼤学,AI相关专业 • 毕业 1 年后到现在⼀直从事底层基础软件开发,10多年开发经验 • 领域涉及到: • 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 VM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 扩缩容难 扩缩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 我们需要一个云原生数据库 云解决了什么? 借助于云上分布式存储,解耦存储 借助于虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据库软件上云已是大势所趋 用户专注于使用,其他事情交给IaaS/SaaS厂商 上云 ≠ 云原生 计算&存储 弹性 智能化云原生平 台0 码力 | 31 页 | 1.43 MB | 1 年前3
 大模型时代下向量数据库的设计与应用目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构 P7 P8 (filtered) P9 P10 (filtered) P2 (filtered) 向量数据库 • 存储向量和原始实体(文字/图像/语音)及元信息,并将它们关联起来 • 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法0 码力 | 28 页 | 1.69 MB | 1 年前3 大模型时代下向量数据库的设计与应用目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构 P7 P8 (filtered) P9 P10 (filtered) P2 (filtered) 向量数据库 • 存储向量和原始实体(文字/图像/语音)及元信息,并将它们关联起来 • 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法0 码力 | 28 页 | 1.69 MB | 1 年前3
共 19 条
- 1
- 2













