大模型时代下向量数据库的设计与应用向量数据库 • embedding通过大模型将各种形式的数据转换成向量 向量数据库 • 两个向量可以计算它们的距离(欧式,余弦/内积, 曼哈顿等),距离越近,表示这两个物体越相似 • 向量搜索的基本问题:K-Nearest Neighbor • 在已有的N个向量中找出与给定向量距离最近的K个向量 Query P1 P3 P4 P5 P6 (filtered) P7 P8 (filtered) 支持二进制索引 • 支持多级索引如HNSW+IVF等 • CPU多核并行/GPU加速 PieCloudVector • Faiss与postgres内核对接 - 基础接口 • 增加向量列类型用于基本的加载与卸载 • 实现向量距离运算符 • 实现向量近似搜索的索引,调用faiss PieCloudVector • Faiss与postgres内核对接 - 数据可见性 • faiss0 码力 | 28 页 | 1.69 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 存在时做更新或者删除 • 数据需要包含顺序键 (OK),以决定操作生效的顺序 • 数据可以重复,但不可以有事务逻辑错误 • Merge/Upsert 模式,步骤1 将数据解析完成,导入与目标表类型相同的临时表中 SELECT r.a, r.b+r.c, func(r.d) … FROM (SELECT meta, raw FROM foreign_table LATERAL JOIN formatter(raw)0 码力 | 29 页 | 5.24 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库rights reserved. OpenPie Confidential 计算 • MPP • 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 @2022 OpenPie. All rights reserved. OpenPie Confidential 实时加解密 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建新一代云原生存储引擎 • 用户成本 (存储成本) • 自动选取适应类型的编码 • 压缩 • 减少对象存储的访问开销 • OLAP 性能 • 多级缓存 • 行列混合存储 • 定义内外存的数据格式 • 文件内统计信息 • 智能Analyze @2022 OpenPie0 码力 | 45 页 | 1.32 MB | 1 年前3
云时代下多数据计算引擎的设计与实现OpenPie. All rights reserved. OpenPie Confidential 计算外延 • 仓湖一体:仓衍生支持开源表格式 • 先读,Iceberg on hdfs/s3读取已基本支持. • 长远不排除”一等公民”. • 联邦查询. @2024 OpenPie. All rights reserved. OpenPie Confidential @2024 OpenPie0 码力 | 15 页 | 3.09 MB | 1 年前3
PieCloudDB Database V2.1 版本说明支持数据导入时自由切入/切出页面,无需用户在导入界面停留等待 o 支持 text 文本格式 o 统一报错信息 • 数据库信息:增加表的大小(size) 信息展示 • 计算集群:外部接入支持更多类型,用户可以更加灵活的配置端口范围0 码力 | 3 页 | 257.15 KB | 1 年前3
云原生数据库PieCloudDB 性能优化之路扫描/连接之外的优化阶段 • 主要处理除扫描和连接之外的其他操作,例如聚集、排序等 • 后处理阶段 • 主要把前面的处理结果转换成执行器期望的形式 • 简化表达式 • 简化连接树 • 把 IN,EXISTS 等类型的子查询转换为半连接 • 提升子查询 • 把外连接转换为内连接 • 把外连接转换为反连接 • 分发约束条件 • 构建等价类 • 收集外连接信息 • 消除无用连接 • … SELECT …0 码力 | 26 页 | 711.44 KB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现OpenPie Confidential • 在 AP 场景下,像使用 postgres 一样使用 PieCloudDB • 只为已经发生的计算和存储付费 • 按需启动的关闭多个不同大小的集群,以适应不同类型的任务 • 取得性能和开发效率的高度平衡 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 云原生架构 @20220 码力 | 43 页 | 1.14 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCSFlink等计算任务,保留用户的使用习惯。 生态完善,支持主流的开发语言和数据科学工具,支持多模数据处理(结构化、 半结构化以及非结构化),提供标准的SQL接口和API,完成各种复杂场景的数据 处理,业务开发周期短,现存的代码基本可以无缝迁移和复用。 国内自主研发,具备社区版、商业版以及云SaaS服务,与国产软硬件完美兼容, 属于信创产业。支持公有云,可充分利用云资源的弹性能力。组件少,提供可视 化管理平台,运维管理简0 码力 | 29 页 | 7.46 MB | 1 年前3
PieCloudDB 的云原生之路IvorySQL开源数据库社区 02 分布式引擎 IvorySQL开源数据库社区 计算 • MPP o 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 IvorySQL开源数据库社区 计算 • 多租户隔离 • 容量和带宽独立于计算伸缩 • 可按使用量付费0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路rights reserved. OpenPie Confidential 计算 • MPP • 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 @2022 OpenPie. All rights reserved. OpenPie Confidential0 码力 | 44 页 | 1.64 MB | 1 年前3
共 12 条
- 1
- 2













