大模型时代下向量数据库的设计与应用计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 • 私域数据 - LLM训练数据多来 LLM训练数据多来源于公开渠道,无法接触到私域数据,对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力,对长时间交互的上下文 Query LLM Response 检索增强生成(RAG) • 将辅助增强数据通过embedding过程转换为向量,加载到向量数据库中并做索引 • 对每个用户输入同样通过embedding过程得到向量,从向量数据库中搜索距离相近数据 • 将这些辅助数据与用户输入同时输入给大模型之后输出 P4 P5 P6 (filtered) P7 P8 (filtered) P9 P10 (filtered) P2 (filtered) 向量数据库 • 存储向量和原始实体(文字/图像/语音)及元信息,并将它们关联起来 • 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据0 码力 | 28 页 | 1.69 MB | 1 年前3
阿里云 AnalyticDB for PostgreSQL
- 打造更简单易用的Cloud SQL Data Warehouse新一代SQL优化器,实现复杂分析语句免调优 • 支持多模分析 通过PostGIS 插件支持 地理信息数据分析;MADlib 库内置100+ 机器学习算法库,实现数据智能探索;高性 能向量检索算法,支持视频/图像检索 以图搜图 AnalyticDB for PostgreSQL 产品架构 协调节点 OSS 分布式云存储服务 SQL Client/BI Tools 协调节点(Master Node) MPP 全并行执行架构,其单计算节点定位为“计算 组”,一个集群实例由多个计算组组成。 ⚫ 多种规格、满足不同场景需求 -交互式分析 -ETL数据清洗 增强的企业级特性-安全 -数据的备份&恢复 -SQL访问安全审计 增强的企业级特性-高可用 -Master HA切换 -故障自动恢复 -监控服务 云管控高可用 1. 阿里云分析型数据库产品介绍 2. AnalyticDB0 码力 | 22 页 | 2.98 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 GreenplumopenEuler 21.09 Edge、面向嵌入式的版本 openEuler 21.09 Embedded。 openEuler 希望与广大生态伙伴、用户、开发者一起,通过联合创新、社区共建,不断增强场景化能力,最终实现统一 操作系统支持多设备,应用一次开发覆盖全场景。 openEuler 平台架构 openEuler 是覆盖全场景的创新平台,在引领内核创新,夯实云化基座的基础上,面向计算架构互联总线、存储介质 白皮书 7 白皮书 | 7 1. 引领内核创新 云原生调度增强:针对云场景在线和离线业务混合部署场景,创新 CPU 调度算法保障在线业务对 CPU 的实时抢占及抖 动抑制,创新业务优先级 00M 内存回收算法保障在线业务安全可靠运行。 • 新文件系统 进行机器学习、深度学习和图分析),它支持高并行 和基于 GPU 的深度学习模型训练,内置于集群硬件中的 GPU,能帮助 Greenplum 6 的用户获得超过 CPU 2 个数量 级的性能加速,尤其对于可预测的分析用例和图像识别,这些功能将展现奇效。支持在 Apache Solr 数据库内实施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接 受来自支持的0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案50 2008年亚洲南 部地区成就奖 “可能会成为数据仓库和数据 库管理系统市场的突破力量” Gartner的Donald Feinberg 17 通过Greenplum超级数据处 理引擎增强竞争优势 Greenplum数据引擎:内容和方式 价值主张 – 性价比: 性能可达到传统方案(Oracle、Teradata)的 10到100倍, 而成本只是其一小部分 – 可伸缩性:从较低的万亿字节扩展到千万亿字节 东方航空:航线结算分析 • 民族证券:数据中心,证券投资分析 • 北京第二外语大学:图书分析 • 中信银行:信用卡分析 • 深发展银行:数据中心兼ODS • 李宁公司:销售和库存分析 • 公安部:图像分析 • 国家海洋局:海洋数据采集与分析 • 上海安吉物流:收入&市场分析、客户经理跟踪分析 • 中远集团:收入、发展、销售分析 案例分享(征途游戏) • 现有运行平台 – 服务器平台:SUN0 码力 | 45 页 | 2.07 MB | 1 年前3
πDataCS赋能工业软件创新与实践k 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎数据计算,AI数学模型、数据和 计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 ,赋能⾏业AI场景应用。 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 装备建造项目的国产数字化调试完⼯应用平台。旨在为豪华邮轮国产化提供专业的自动化软件应用的同时,加速调试完⼯数字平台国产化 的进程 。 本期项目的主要建设目标: Ø 在设计数据收集的前端,搭载基于国产设计的智能图像算法芯片和传感器的三维结构光体测量设备,来深度挖掘设计和建造 数据,打造孪⽣设计⼤数据库,穿透调试计划,串联供应链数据。 Ø 致⼒于建设⼀个安全、可控、软硬件⼀体的数字建造⼯业自动化软件应用平台0 码力 | 36 页 | 4.25 MB | 1 年前3
TiDB v8.4 中文手册发版日期:2024 年 11 月 11 日 TiDB 版本:8.4.0 试用链接:快速体验 | 下载离线包 在 8.4.0 版本中,你可以获得以下关键特性:分类 功能/增强 描述 可扩展性和性能 数据库管理和可观测性 @JaySon-Huang @winoros @wk989898 向量搜索是一种基于数据语义的搜索方法,可以提供更相关的搜索结果。作为 AI 和大语言模型 (LLM) 的 核心功能之一,向量搜索可用于检索增强生成 (Retrieval-Augmented Generation, RAG)、语义搜索、推荐系统 等多种场景。 从 v8.4.0 开始,TiDB 支持向量数据类型和向量搜索索引,具备强大的向量搜索能力。TiDB0 码力 | 5072 页 | 104.05 MB | 10 月前3
TiDB v8.5 中文手册发版日期:2024 年 11 月 11 日 TiDB 版本:8.4.0 试用链接:快速体验 | 下载离线包 在 8.4.0 版本中,你可以获得以下关键特性:分类 功能/增强 描述 可扩展性和性能 数据库管理和可观测性 @JaySon-Huang @winoros @wk989898 向量搜索是一种基于数据语义的搜索方法,可以提供更相关的搜索结果。作为 AI 和大语言模型 (LLM) 的 核心功能之一,向量搜索可用于检索增强生成 (Retrieval-Augmented Generation, RAG)、语义搜索、推荐系统 等多种场景。 从 v8.4.0 开始,TiDB 支持向量数据类型和向量搜索索引,具备强大的向量搜索能力。TiDB0 码力 | 5095 页 | 104.54 MB | 10 月前3
PieCloudDB Database V2.1 版本说明Release Note 版本号:V2.1 发布日期:2022 年 10 月 内 核 • 聚集下推功能得到增强:通过把聚集操作下推到连接操作之前去执行,极大的减 少连接操作需要处理的数据量,使得查询性能显著提升。 • 实现了 Block Skipping 的优化机制:数据库运行查询语句时,通过计算每个块 (block)中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性 ,提高元数据访问的速度。 • 可观察性增强:可得到更多的查询时系统的统计信息,包括元数据管理、S3 等。 • Vacuum 优化:在元数据层通过快速过滤不需要 vacuum 的数据,从而实现 vacuum 加速。 • 存储引擎 简墨(JANM) 异常处理的优化: 避免各种异常情况下数据残留。 • 简墨(JANM)分布式处理增强:更高效的元数据采集和分发,提升用户查询响 应时间,降低系统负载 • 简墨(JANM)动态分配读取文件增强 dispatch 性能:此优化将动态的分配要 读取的文件给各个执行节点,降低查询的启动代价。 • 原生格式存储:在 HDFS/NAS 系统上支持原生存储格式。 • 对 Orca 的支持:PieCloudDB 支持查询优化器 Orca。Orca 是一款开源的、基 于 Cascades 模型的模块化查询优化器,帮助用户对0 码力 | 3 页 | 257.15 KB | 1 年前3
PieCloudDB:云原生分布式虚拟数仓的诞生之旅24发布1.0版本,技术和产品上实现了云原⽣. • 计算和存储分离:弹性计算 & 弹性存储. • 计算和存储都:按需付费. • 多租⼾隔离. • 2023年3.14上公有云(阿⾥云). • 更多功能增强 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 (cont.) • 为什么我们觉得数据库云原⽣很重要? reserved. OpenPie Confidential 成⻓之路 (cont.) • 功能变强或者补全 • 海量数据修改增强. • 初步备份功能. • Vacuum增强. • 统计数据⾃动收集更新. • Spill to S3⽀持 • 临时表完全⽀持. • 各种异常处理增强. • …... • 稳定性. @2022 OpenPie. All rights reserved. OpenPie Confidential0 码力 | 24 页 | 2.01 MB | 1 年前3
TiDB v8.0 中文手册发版日期:2024 年 3 月 29 日 TiDB 版本:8.0.0 试用链接:快速体验 | 下载离线包 在 8.0.0 版本中,你可以获得以下关键特性:分类 功能/增强 描述 可扩展性与性能 增强 Titan 引擎的易用性 #16245 @Connor1996 – 默认启用 Titan Blob 文件和 RocksDB Block 文件的共享缓存(shared-blob-cache 默认为 0 码力 | 4805 页 | 101.28 MB | 1 年前3共 56 条- 1
- 2
- 3
- 4
- 5
- 6













