积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部数据库(72)TiDB(15)数据库中间件(13)Greenplum(13)PieCloudDB(12)Apache Doris(4)ClickHouse(4)PostgreSQL(2)Apache HBase(2)SQLite(2)

语言

全部中文(简体)(68)英语(2)

格式

全部PDF文档 PDF(72)
 
本次搜索耗时 0.357 秒,为您找到相关结果约 72 个.
  • 全部
  • 数据库
  • TiDB
  • 数据库中间件
  • Greenplum
  • PieCloudDB
  • Apache Doris
  • ClickHouse
  • PostgreSQL
  • Apache HBase
  • SQLite
  • 全部
  • 中文(简体)
  • 英语
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 兼容龙蜥的云原生大模型数据计算系统:πDataCS

    --πDataCS简介 兼容龙蜥的云原生大模型数据计算系统 拓数派产品市场总监 吴疆 吴疆 深耕云计算和数据库行业十余年 拓数派(Openpie)产品市场总监 毕业于清华大学计算机系,先后在IBM,EMC, Pivotal,VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介 海 外 研 发 独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准, 驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为A 与东吴证券在数仓虚拟化和信创领域展开试点合作 12月 创始人冯雷再度荣登数字商业周刊“年度智造中国商业领袖” 4月 冯雷被评为杭州市所有的独角兽和准独角兽企业 中唯一“年度创业人物” 打造大模型时代 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派入选中国信通院“铸基计划”「高质量数字
    0 码力 | 29 页 | 7.46 MB | 1 年前
    3
  • pdf文档 大模型时代下向量数据库的设计与应用

    大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道,无法接触到私域数据,对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力,对长时间交互的上下文
    0 码力 | 28 页 | 1.69 MB | 1 年前
    3
  • pdf文档 Al原生数据库与RAG

    提示词 提示词模版 对话机器人 搜索 推荐 Copilot Embedding模型 LLM LLM对企业信息架构的改变 对话机器人 搜索 推荐 数据库 APIs 文档 网站 日志 交易记录 向量数据库 LLM 编排 Copilot RAG典型挑战和解决方案  挑战一:向量召回不准确  挑战四:幻觉、胡说八道  挑战五:定制化成本  挑战二:数据组织混乱丧失语义  数据库  文档结构识别  文字加工  多路召回  融合排序 RAG引擎工作流程 文档格式转换 LLM Answer 大模型答案 文档格式解析 文档布局解析 句法模版 抽取引擎 开放域 抽取系统 跨模态文档预训练模型 弹性模版 抽取引擎 跨模态文档 抽取系统 文档 表格 抽取 系统 规则 引擎 模型 系统 文档内容抽取 文档格式解析 Prompt Template Template 提示模板 Recall 多路召回 Query 问题 Embedding 向量化 KnowledgeBase 知识库 ANN Parser Vector Index Full Text Index Cross Attentional Reranker 重排序 基于视觉的文档理解和切分 Documents 基于视觉的文档理解和切分 页眉和页脚 段落划分
    0 码力 | 25 页 | 4.48 MB | 1 年前
    3
  • pdf文档 TiDB v8.4 中文手册

    · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1039 10.2.5 乐观事务模型下写写冲突问题排查· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1043 10 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2612 14.3.15 TiFlash Pipeline Model 执行模型 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2613 14 4/vector-search-overview">向量搜索功能( �→ 实验特性) 向量搜索是一种基于数据语义的搜索方法,可以提供更相关的搜索结果。作为 AI 和大语言模型 (LLM) �→ 的核心功能之一,向量搜索可用于检索增强生成 (Retrieval-Augmented Generation, RAG)、 �→ 语义搜索、推荐系统等多种场景。 35
    0 码力 | 5072 页 | 104.05 MB | 10 月前
    3
  • pdf文档 TiDB v8.5 中文手册

    · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1294 10.2.5 乐观事务模型下写写冲突问题排查· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1297 10 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2630 14.3.15 TiFlash Pipeline Model 执行模型 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2631 14 4/vector-search-overview">向量搜索功能( �→ 实验特性) 向量搜索是一种基于数据语义的搜索方法,可以提供更相关的搜索结果。作为 AI 和大语言模型 (LLM) �→ 的核心功能之一,向量搜索可用于检索增强生成 (Retrieval-Augmented Generation, RAG)、 �→ 语义搜索、推荐系统等多种场景。 40
    0 码力 | 5095 页 | 104.54 MB | 10 月前
    3
  • pdf文档 πDataCS赋能工业软件创新与实践

    与东吴证券在数仓虚拟化和信创领域展开试点合作 12月 创始⼈冯雷再度荣登数字商业周刊“年度智造中国商业领袖” 4月 冯雷被评为杭州市所有的独角兽和准独角兽企 业中唯⼀“年度创业⼈物” 打造⼤模型时代 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派⼊选中国信通院“铸基计划”「⾼质量数字化 2023拓数派年度技术论坛 拓数派⼤模型数据计算系统正式亮相,让AI模型更⼤更快 @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS的产品理念及定位 数据 计算 模型 灵活扩展的数据引擎,支持关系型数据库SQL、Spark/Flink 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎数据计算,AI数学模型、数据和 计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 ,赋能⾏业AI场景应用。 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 @2024
    0 码力 | 36 页 | 4.25 MB | 1 年前
    3
  • pdf文档 Greenplum机器学习⼯具集和案例

    generate_series(1,30:: bigint) AS ID) foo DISTRIBUTED BY (id); 2017.thegiac.com 2017.thegiac.com • 适合模型应用于数据子集的场景,并行执行效率非常高 • 如果节点间数据通讯,使用 适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 2017.thegiac.com ⽤用户案例例 1 Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测 模型不不够精准,需 要更更好的邮件营销 策略略 ● 现有数据分析流程 繁琐,速度慢,有 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公 逻辑回归 计算 KS 分值 模型验证 ⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 特征⽣生成 验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 逻辑回归 Elastic Net 特征选择 模型 1 2 3 4 5
    0 码力 | 58 页 | 1.97 MB | 1 年前
    3
  • pdf文档 Apache Doris 在美团外卖数仓中的应用实践

    量业务,预设维度分析场景下表现良好,但在变化维的场景下生产成本巨大。例如,如果使用最 新商家类型回溯商家近三个月的表现,需要重新计算三个月的Cube,需花费几个小时,来计算近 TB的历史数据。另外,应对非预设维度分析,MOLAP模型需要重新进行适配计算,也需要一定的 迭代工作。 明细数据的交互 业务分析除了宏观数据之外,对明细数据查询也是一种刚需。通常大家会选择MySQL等关系型DB 作为明细数据的快速检索查询,但当业务成 iteblog.com 下图是MOLAP模式与ROLAP模式下应用方案的比较: MOLAP模式的劣势 1. 应用层模型复杂,根据业务需要以及Kylin生产需要,还要做较多模型预处理。这样在不同 的业务场景中,模型的利用率也比较低。 2. Kylin配置过程繁琐,需要配置模型设计,并配合适当的“剪枝”策略,以实现计算成本与查 询效率的平衡。 3. 由于MOLAP不支持明细数据的查询,在“ 较多的预处理伴随着较高的生产成本。 ROLAP模式的优势 1. 应用层模型设计简化,将数据固定在一个稳定的数据粒度即可。比如商家粒度的星形模型 ,同时复用率也比较高。 2. App层的业务表达可以通过视图进行封装,减少了数据冗余,同时提高了应用的灵活性, 降低了运维成本。 3. 同时支持“汇总+明细”。 4. 模型轻量标准化,极大的降低了生产成本。 综上所述,在变化维、非预设维、细粒度
    0 码力 | 8 页 | 429.42 KB | 1 年前
    3
  • pdf文档 SelectDB案例 从 ClickHouse 到 Apache Doris

    具有以下的优势: Apache Doris 的优势:  Doris 架构极简易用,部署只需两个进程,不依赖其他系统,运维简单;兼容 MySQL 协议,并且使用标准 SQL。  支持丰富的数据模型,可满足多种数据更新方式,支持部分列更新。  支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查 询分析。  导入方式多样,支持从 术支持团队,在使用过程中遇到问题均能快速得到响应解决。 同时我们也利用 Doris 的特性,解决了架构 1.0 中较为突出的问题。  数仓层:Apache Doris 的 Aggregate 数据模型可支持部分列实时更新,因此我们去 掉了 DWM 集市层的构建,直接增量到 Doris / ES 中构建宽表,解决了架构 1.0 中 上游数据更新延迟导致整个宽表延迟的问题,进而提升了数据的时效性。数据(指 逻辑,离线和实时可对多个开发逻辑进行复用,灵活度较高。 数据模型选择 目前我们生产环境所使用的版本为 Apache Doris 1.1.3,我们对其所支持的 Unique 主键模 型、Aggregate 聚合模型和 Duplicate 明细模型进行了对比 ,相较于 Unique 模型和 Duplicate 模型,Aggregate 聚合模型满足我们部分列更新的场景需求: Aggregate 聚合模型可以支持多种预聚合模式,可以通过
    0 码力 | 12 页 | 1.55 MB | 1 年前
    3
  • pdf文档 HBase基本介绍

    速度不不慢) Sorted map. 整个数据模型就是⼀一个按key排序的⼤大Map, Agenda Data Model Architecture & Component Schema design 1. Data Model 存什什么样的数据 既然是⼀一个数据库, ⼀一个⾮非关系型的数据库, 我们⾸首先要了了解他的数据模型, 就是说他能存什什么样的数据. 像redis是存kv结构的数据 ’表/⾏行行/列列’ • Row Key • ColumnFamily列列族 : ColumnQualifier列列限定名 • Version/Timestamp 分数:语⽂文 数据模型 逻辑视图 整个HBase和关系数据库很像, 但⼜又要时时注意两者的区别. 右⾯面我继续以⼀一次考试学⽣生分数距离. ⾸首先也有表/⾏行行/列列这三个概念. hbase最⼩小就是⼀一个table 除了了列列族要求是可打印字符, 别的都可以是任 意⼆二进制数据 数据模型 RowKey • ColumnFamily的设计是要求把相关的列列放在 同族 • 所有的各项配置, 都是指定到列列族上, 不不是列列, 同列列族数据, 物理理上存在同⽂文件 • ColumnFamily在建表时确定, 具体有哪些列列 是数据随意添加的 数据模型 Column 数据模型 物理理视图 • 逻辑视图 不不等于 物理理视图
    0 码力 | 33 页 | 4.86 MB | 1 年前
    3
共 72 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 8
前往
页
相关搜索词
兼容原生模型数据计算系统DataCS时代向量据库数据库设计应用AlRAGTiDBv8中文手册赋能工业软件创新实践Greenplum机器学习案例Apache Doris美团SelectDBClickHouseApacheDorisHBase基本介绍
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩