πDataCS赋能工业软件创新与实践reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS 赋能⼯业软件创新与实践 吴疆 拓数派产品社区总监 CONTENTS @2024 OpenPie. All rights reserved. OpenPie Confidential 杭州拓数派科技发展有限公司 使命:数据计算,只为新发现 愿景:成为立⾜中国基础数据计算领域的全球顶级⾼科技创新机构 价值观:以⼈为本、开放创新、拥抱变化、诚信正直 拓数派中国总部与全球分支机构 海 外 研 发 中 ⼼ 北京研发中⼼ 杭 州 总 部 上海全球品牌战略与⽣态发展中⼼ ⼴州研发中⼼ @2024 OpenPie. All rights reserved. OpenPie Confidential 国际顶级创始团队 2021 2022 当天即获得头部产业基⾦天使轮投资 成为Day-1准独角兽 7月 与中国⼈民⼤学成立实习基地,打造中 国的云原⽣数据库世界级智⼒⾼地 11月 4月 获得元⽲重元和东吴证券Pre-A轮投资 标 志着企业进⼊快速成长期 拓数派 正式成立 成立杭州总部、北京研发中⼼、 上海全球品牌战略与⽣态发展中⼼ 蓬勃发展的拓数派 驱动数据计算时代的到来 9月 成立加拿⼤研发中⼼0 码力 | 36 页 | 4.25 MB | 1 年前3
云时代下多数据计算引擎的设计与实现reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代下多数据计算引擎的设计与实现 郭罡 CTO 拓数派(OpenPie) @2024 OpenPie. All rights reserved. OpenPie Confidential 关 于 拓 数 派 • 成立于2021年,以“Data0 码力 | 15 页 | 3.09 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现ETL方案设计与实现 邱培峰 拓数派 技术专家 云原生虚拟数仓PieCloudDB 大连理工大学软件工程本科 pgsql@qiupf.dev 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发 PieCloudDB 分布式架构简介 ETL 简述 PieCloudDB ETL方案设计 Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 03 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 • 错误处理 • 任务调度总控 pdbconduct • 数据源提取(插件/客户端工具) • 计算节点 Foreign Table, Formatter • 任务调度总控 按需启动数据源(插件)导出 • 发送 SQL 语句到 PieCloudDB 控制节点 • 收集执行结果,记录进度和错误信息 • INSERT/MERGE 模式 • INSERT 模式,支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式,步骤1 Ø PieCloudDB Foreign Table,postgres扩展,需要为数据源单独开发 Ø 控制节点上读取数据源信息,决定是否拆分,生成任务信息0 码力 | 29 页 | 5.24 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现pyH� un lytlcD r.p ur re 。 Rock.s 2014 2018 2022 云原⽣数据库 PieCloudDB eMPP架构设计与实现 郭罡 拓数派CTO 关于拓数派(OpenPie) • 成⽴于2021年,以“Data Computing for New Discoveries”「数据计算, 只为新发现」为使命。 •0 码力 | 31 页 | 1.43 MB | 1 年前3
大模型时代下向量数据库的设计与应用大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 互的上下文 Query LLM Response 检索增强生成(RAG) • 将辅助增强数据通过embedding过程转换为向量,加载到向量数据库中并做索引 • 对每个用户输入同样通过embedding过程得到向量,从向量数据库中搜索距离相近数据 • 将这些辅助数据与用户输入同时输入给大模型之后输出 向量数据库 • embedding通过大模型将各种形式的数据转换成向量 向量数据库0 码力 | 28 页 | 1.69 MB | 1 年前3
PieCloudDB Database 产品白皮书 油”,如同石油驱动了工业化时代的进步,大数据将推动智能化与数字化时代的发展。 Annual Size of the Global Datasphere zetabytes 击需视各2nk 2n 2n6 201 2018 20192070 20717022 2973 2024 2025 1DC:全球数据圈预测 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 录。数据计算时,所有机器同时并行计算,理论上最 把计算时间降低到单机部署的 1/n (n为机器数量) ,节省了海量数据的处理时间。 传统数据仓库架构 然而,随着数据量的不断尝升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 传统数据仓库的计算和存情是| 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一, 报表结! 传统数据仓库无法及时扩 导致大数据系统天 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迁代迅速,相关人员需保持积极的知识更新意识。根关人才市场较小,人才芽乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将应0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书2025年增长值175ZB,而中国的数据圈有望于2025年爆炸式增长为世界第一 。数据被称为数字经济时代的“石 油”,如同石油驱动了工业化时代的进步,大数据将推动智能化与数字化时代的发展。 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算(Data Computing)的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 数据库营收数据将占据数据 库整体市场的半数以上。 1 2 全 球 数 据 圈 预 测 IDC: 3 缺 乏 弹 性 然而,随着数据量的不断攀升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 4 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。 MPP 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迭代迅速,相关人员需保持积极的知识更新意识。相关人才市场较小,人才匮乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 5 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的0 码力 | 17 页 | 2.02 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCSPivotal,VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介 海 外 研 发 中 心 北 京 研 发 中 心 杭 州 总 部 上海全球品牌战略与生态发展中心 广 州 研 发 中 心 拓数派中国总部与全球分支机构 杭州拓数派科技发展有限公司(又称"OpenPie")是立足于国内,基础数据计算领域的高科技创新机构。 来自本土的 全球创新热点。凭此再度荣登数字商业周刊“年度智造中国商业领袖”。(《数字商业时代》报道) 拓数派创始人、董事长兼首席执行官;原Pivotal/Greenplum(中国)创始人 • 与核心团队在PaaS云第一股Pivotal(PVTL)的成功基础上,在腾讯投资天使轮投资支持下成立 拓数派,打造了国内科技领域屈指可数的Day-1准独角兽企业。(36氪首发报道) • 由于拓数派在云 原Pivotal中国领团队和原Greenplum产品及社区核心成员均已加入拓数派。成员毕业自CMU、北大、清华和科大少年班 等顶级学术机构,并有成员获有奥赛奖牌。 • 我们秉承硅谷创新文化和普及数字化公益等社会责任。在公司成长的过程中,不遗余力为人才提供一个成为业内明星的平 台和通道。 郭罡(Paul Guo) 合 伙 人 & C T O • 中国科技大学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum/HAWQ首席内核架构师0 码力 | 29 页 | 7.46 MB | 1 年前3
PieCloudDB Database 社区版集群安装部署手册 V2.13.11 修改 PDB 配置文件信息 将 deployment 包中的 repo.conf 修改为如下内容,具体根据实际 PieCloudDB 进行配置,新版本 中的配置项与旧版本的有差别: 1. export helm_registry=http://10.24.31.157/chartrepo/helm 2. export image_registry=10.24 hub="10.24.31.157/istio" 选项 备注:实际在客户现场部署时候,--set hub 需要调整为对应的 harbor 地址。 适配 update_helm_repo 函数 ,在 helm repo add pieclouddb 时, 添加认证信息 。 1. function update_helm_repo { 2. # add repo and update password Harbor12345 11. helm repo update 12. } 备注:适配版本信息, 确保在 deploy.sh 安装时使用的镜像版本(image.tag)与 离线包中包含的镜像版 本一致。 3.12 环境检查和准备 K8S 环境检查: 1. kubectl get nodes -l node-role.kubernetes.io/control-0 码力 | 42 页 | 1.58 MB | 1 年前3
PieCloudDB Database V2.8 Release Note新文件的 Block 文件大小限制, 以兆字节为单位。 n 新增建表选项 num_stat_col,控制文件内统计列数,为每个 JANM 文件 节省 CPU 和元数据大小。默认值为 32,与 INDEX_MAX_KEYS 相同。 3 l 外表 FDW 相关 n 新增 raw_fdw 外表接口,支持在协调节点和工作节点上执行,以原始字 节(bytea)读取文件。 Kafka FDW 支持 JSON 格式。 l 执行计划信息 支持在 EXPLAIN ANALYZE VERBOSE 执行结果中显示调度相关状态信息。 4 l 用户定义函数 UDF n 新增 janm_page_size_read,用以获取 Page 大小。 n 新增 janm_block_file_size_read,用以获取 Block 文件大小。0 码力 | 4 页 | 144.49 KB | 1 年前3
共 17 条
- 1
- 2













