PieCloudDB Database 产品白皮书 1DC:全球数据圈预测 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算 (Data Computing) 的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 化转型面临巨大挑战,急需一款数据库产品,帮助其最大化利用数据资产,降本增效,进行更智能高效的数据计算。 数据库的未来在云上 随着云计算时代的 量提高查询性能。此外,PiecloudDB PiecloudDB 还支持查询优化器Orca。Orca是一款开源的、基于Cascades 模型的模块化查询优化器, 可以帮助用户对SQL进行优化,生成高效的查询计划。 此外,PieCloudDB 兼容 ORCA 优化器 (DORCA 是一款开源的、基于 Cascades 模型的模块化查询优化器,可以帮助用 户对 SQL 进行优化,生成高效的查询计划) HDFS、MySQL 、Oracle等外部数据。PieCloudDB 支持JS5ON,XML,Parquet以及 二进制数据等格式,同时,PieCloudDB 既支持用户利用过程语言自行开发模块进行数据分析也原生兼容开源机器学 习库Apache MADlib,从而可以原生实现一些高级机器学习功能。该拓展提供数学、统计学以及机器学习方法,包括 但不限于线性回归、关联规则、贝叶斯分类、决策树和随机森林等算法支持。同时 Openpie0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算(Data Computing)的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 化转型面临巨大挑战,急需一款数据库产品,帮助其最大化利用数据资产,降本增效,进行更智能高效的数据计算。 数据库的未来在云上 等测试,实现 了包括聚集下推、Block Skipping 等功能模块,大大缩短执行时间,高效的数据查询提高了数据分析的实时性。 此外,PieCloudDB 兼容 ORCA 优化器(ORCA 是一款开源的、基于 Cascades 模型的模块化查询优化器,可以帮助用 户对 SQL 进行优化,生成高效的查询计划)。 PieCloudDB 通过独特的设计,具备原生多租户能力,每个租户有自己的数据库和虚拟数仓。不同的租户互相隔离, 通过预计算每个块(block) 中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性能。此外,PieCloudDB PieCloudDB 还支持查询优化器Orca。Orca是一款开源的、基于Cascades 模型的模块化查询优化器, 可以帮助用户对SQL进行优化,生成高效的查询计划。 湖仓一体化分析 PieCloudDB 支持统一的资源管控,通过云原生存储引擎支持多种存0 码力 | 17 页 | 2.02 MB | 1 年前3
大模型时代下向量数据库的设计与应用大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 支持向量标量混合查询 PieCloudVector • 使用faiss开源算法库做为向量搜索引擎 • 支持主流的ann算法,如ivf和hnsw等 PieCloudVector • 使用faiss开源算法库做为向量搜索引擎 • 支持向量编码和压缩如PQ等 PieCloudVector • 使用faiss开源算法库做为向量搜索引擎 • 支持二进制索引 • 支持多级索引如HNSW+IVF等 整合全球领先经验实践为己任,为中国产业快速发展提供智库。 高可用架构主要关注互联网架构及高可用、可扩展及高性能领域的知识传播。 订阅用户覆盖主流互联网及软件领域系统架构技术从业人员。 高可用架构系列 社群是一个社区组织,其精神是“分享+交流”,提倡社区的人人参与,同时从社 区获得高质量的内容。0 码力 | 28 页 | 1.69 MB | 1 年前3
如何从零开始参与技术社区?特定领域(如神经⽹络) Mundo元数据管理系统 统⼀Catalog 公有云 私有云 政务云 ⾏业云 信创云 • DataSharing 技术原⽣支持数据要素流转 • TimeTraveling 等技术有效组织数据配合⼤模型精调 @2024 OpenPie. All rights reserved. OpenPie Confidential 国内总贡献次数 拓数派 278 124 拓 数 派 团 队 Hack The Postgres! @2024 OpenPie. All rights reserved. OpenPie Confidential 如何加⼊ PieCloudDB 社区 • 开源计划 • 参与⽅式 • 产品试用(社区版、云上云版) • 贡献⽂章 • 加⼊社区交流群 • 等等 @2024 OpenPie. All rights reserved. OpenPie Confidential0 码力 | 25 页 | 871.00 KB | 1 年前3
AGI 趋势下的云原生数据计算系统拥有强大的数据库内核研发团队、数据科学家团 队和数字化转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据 计算引擎方向进行创新,全面拥抱AI技术趋势。 企业介绍 云原生数据计算系统 围绕数据组织云原生计算系统, 重构数据存储和计算,一份存 储,多引擎数据计算,全面升 级大数据系统至大模型时代。 02 中国AGI发展趋势 中国AGI市场融资非常活跃, AGI顶级人才非常欠缺,整 认知方面取得了显著进步,但要达到真正的通用智能,仍需克服重重困难。因此,AI Agent作为新的研究方向,开始受至越来越多的关注。 AI Agent成为推动AI技术革命的关键力量 云原生数据计算系统 围绕数据组织云原生计算系统,重构数据存储和计算, 一份存储,多引擎数据计算,全面升级大数据系统至大 模型时代。 02 云原生数据计算系统 大模型数据计算系统概览 • Data Sharing 技术原生支持数据要素流转 Format技术 • 云原生存储架构,元数据、数据和计算全分离 核 心 技 术 突 破 • 数据一次入库永不出户,数据可用不可见,跑算力不跑数据 • 全链路加密保证数据安全 • JANM存储引擎等技术有效组织数据配合大模型精调 u 首创云原生eMPP架构 u 国内数仓虚拟化技术提出者 云原生数据计算系统 PieDataCS数据底座为AI大模型赋能 云原生数据计算系统 虚拟数仓引擎设计 云原生数据计算系统0 码力 | 26 页 | 2.84 MB | 1 年前3
PieCloudDB 的云原生之路IvorySQL开源数据库社区 IvorySQL 用户组技术沙龙北京站 IvorySQL开源数据库社区 PieCloudDB 的云原生之路 姓名:吴疆 公司:拓数派 职位:产品及推广总监 IvorySQL开源数据库社区 吴疆 IvorySQL开源数据库社区 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 杭州拓数派科技发展有限公司(又称“OpenPie”),以 “Data PieCloudDB,以云计算架构为设 计基础,首创全新 eMPP 分布式技术,帮助企业建立竞争壁垒 的同时,实现数据价值最大化,并在新基建中承担可靠和可控 的世界级云数据库底座。 IvorySQL开源数据库社区 2021 2022 当天即获得腾讯投资天使轮投资 成为 Day-1 准独角兽 7月 与中国人民大学成立实习基地,打造 中国的云原生数据库世界级智力高地 11月 4月 获得元禾重元和东吴证券 IvorySQL开源数据库社区 免费试用 PieCloudDB 云上云版:https://app.pieclouddb.com IvorySQL开源数据库社区 目录 数据库的云原生远景 01 云原生数据库 PieCloudDB 简介 02 PieCloudDB 的架构特点 03 总结 04 IvorySQL开源数据库社区 PART 01 数据库的云原生远景 IvorySQL开源数据库社区0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB Database 社区版集群安装部署手册 V2.1即可,将自动成为超级管理员。 例如,用户 “汤姆” 使用用户名 “tom”、邮箱 “tom@openpie.com” 和密码 “12345Tom!”注册了组织账户 “piebar”,“tom” 成为了 “piebar” 该组织账户的超级管理 员。 a. 需要前往注册时使用的邮箱,查收激活账户请求的邮件,点击“激活账户”即可完成注 册,同时会返回 PieCloudDB 界面。这里需要注意的是,PieCloudDB0 码力 | 42 页 | 1.58 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现• Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 缺乏弹性 业务使用不灵活 • MPP架构:分布式,海量数据并行处理 • e代表弹性(elastic) 完善的Postgres生态 为什么选择Postgres? • 关于Postgres • 公司中⽴,开源协议友好,国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展,插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持 (原⽣或者插件) • 采⽤度和流⾏度持续上升 • 优秀的⽣态 • 我们的选择 • 很多功能不⽤也没必要重新造轮⼦0 码力 | 31 页 | 1.43 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现生态 PieCloudDB eMPP 分布式架构 导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet0 码力 | 29 页 | 5.24 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS技术部门,是Oracle Cloud Control的分布式调动引擎的 主要贡献者之一。 • 因为参与Pivotal的拆分创建、C轮融资和IPO成功,以及主导的Greenplum产品在全球范围的开源影 响力,被《数字商业周刊》选为2019年度封面人物。(《数商周刊》报道) 拓数派创始人、董事长兼首席执行官 • 冯雷带领团队实现数据库云原生虚拟化突破,打造的PieCloudDB(πCloudDB)数据库是来自本土的 生态丰富,对结构化数据、半结构化数据以及非结构化数据都支持,可以很好的 完成各种业务场景的数据处理需求。但是对于开发的要求比较高,需要掌握多种 组件的不同使用方法,业务开发周期会比较久。 国外开源软件,与国产软硬件兼容性差,不符合信创趋势,也无法直接利用云资 源的弹性能力。组件太多,导致集群部署和后期运维管理很麻烦,市场上相关人 才储备量不多,技术兜底依赖于Cloudera,国内第三方公司主要是基础运维和开0 码力 | 29 页 | 7.46 MB | 1 年前3
共 13 条
- 1
- 2













