编程模型 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

兼容龙蜥的云原生大模型数据计算系统：πDataCS

--πDataCS简介兼容龙蜥的云原生大模型数据计算系统拓数派产品市场总监吴疆吴疆深耕云计算和数据库行业十余年拓数派(Openpie)产品市场总监毕业于清华大学计算机系，先后在IBM，EMC， Pivotal，VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介海外研发独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准, 驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。拓数派旗下大模型数据计算系统（PieDataComputing System，缩写πDataCS），以云原生技术重构数据存储和计算，一份存储，多引擎数据计算，全面升级大数据系统至大模型时代，使得自主可控的大模型数据计算系统保持全球领先，成为A 与东吴证券在数仓虚拟化和信创领域展开试点合作 12月创始人冯雷再度荣登数字商业周刊“年度智造中国商业领袖” 4月冯雷被评为杭州市所有的独角兽和准独角兽企业中唯一“年度创业人物” 打造大模型时代立身中国的世界级团队首家以虚拟数仓通过信通院/可信AP数据库评测 7月拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月拓数派入选中国信通院“铸基计划”「高质量数字

0 码力 | 29 页 | 7.46 MB | 1 年前
3
大模型时代下向量数据库的设计与应用

大模型时代下向量数据库的设计与应用个人简介目前在拓数派负责向量数据库PieCloudVector产品，聚焦于大模型与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验，在加入拓数派前曾就职于开源大数据平台Greenplum团队，担任外部数据源访问框架，对象存储访问扩展，ETL工具等产品模块的研发，并曾参与PostgreSQL多个版本的代码贡献，拥有丰富的存储模块核心开发和性能优化等实践经验。邱培峰拓数派向量数据库负责人拓数派：大模型数据计算系统先行者 • 拓数派（ OpenPie）是立足于国内的基础数据计算领域高科技创新机构； • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团队； • 国内虚拟数仓和eMPP技术提出者，不断在数据计算引擎方向进行创新，全面拥抱AI技术趋势。目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • • PieCloudVector架构设计与挑战 • 案例介绍大模型检索增强生成(RAG) 使用大模型可以构造问答，聊天等应用，但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期，不包含最新信息，无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道，无法接触到私域数据，对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力，对长时间交互的上下文

0 码力 | 28 页 | 1.69 MB | 1 年前
3
传智播客 mybatis 框架课程讲义

Mybatis 框架课程讲师：传智.燕青 1 Mybatis 入门 1.1 单独使用 jdbc 编程问题总结 1.1.1 jdbc 程序 Public static void main(String[] args) { Connection connection = null; PreparedStatement preparedStatement = null; ResultSet Auto-generated catch block e.printStackTrace(); } } } } 上边使用 jdbc 的原始方法（未经封装）实现了查询数据库表记录的操作。 1.1.2 jdbc 编程步骤： 1、加载数据库驱动 2、创建并获取数据库链接 3、创建 jdbc statement 对象 4、设置 sql 语句 5、设置 sql 语句中的参数(使用 preparedStatement) sql 中，输入参数映射就是 jdbc 编程中对 preparedStatement 设置参数。 7、 Mapped Statement 对 sql执行输出结果进行定义，包括 HashMap、基本类型、pojo，Executor 通过 Mapped Statement 在执行 sql 后将输出结果映射至 java 对象中，输出结果映射过程相当于 jdbc 编程中对结果的解析处理过程。 1.4 mybatis

0 码力 | 75 页 | 1.16 MB | 1 年前
3
Apache ShardingSphere 中文文档 5.1.1

）、流量变形（数据加密、数据脱敏）、流量鉴权（安全、审计、权限）、流量治理（熔断、限流）以及流量分析（服务质量分析、可观察性）等透明化增量功能； • 可插拔：项目采用微内核 + 三层可插拔模型，使内核、功能组件以及生态对接完全能够灵活的方式进行插拔式扩展，开发者能够像使用积木一样定制属于自己的独特系统。 ShardingSphere 已于 2020 年 4 月 16 日成为 Apache ShardingSphere 中叫做 Hint。实现机制 Apache ShardingSphere 使用 ThreadLocal 管理分片键值。可以通过编程的方式向 HintManager 中添加分片条件，该分片条件仅在当前线程内生效。除了通过编程的方式使用强制分片路由，Apache ShardingSphere 还可以通过 SQL 中的特殊注释的方式引用 Hint，使开发者可以采用更加透明的方式使用该功能。功与否。本地事务在性能方面无任何损耗，但在强一致性以及最终一致性方面则力不从心。两阶段提交 XA 协议最早的分布式事务模型是由 X/Open 国际联盟提出的 X/Open Distributed Transaction Processing (DTP) 模型，简称 XA 协议。基于 XA 协议实现的分布式事务对业务侵入很小。它最大的优势就是对使用方透明，用户可以像使用本地事务一样使用基于

0 码力 | 409 页 | 4.47 MB | 1 年前
3
Apache ShardingSphere 中文文档 5.1.0

）、流量变形（数据加密、数据脱敏）、流量鉴权（安全、审计、权限）、流量治理（熔断、限流）以及流量分析（服务质量分析、可观察性）等透明化增量功能； • 可插拔：项目采用微内核 + 三层可插拔模型，使内核、功能组件以及生态对接完全能够灵活的方式进行插拔式扩展，开发者能够像使用积木一样定制属于自己的独特系统。 ShardingSphere 已于 2020 年 4 月 16 日成为 Apache ShardingSphere 中叫做 Hint。实现机制 Apache ShardingSphere 使用 ThreadLocal 管理分片键值。可以通过编程的方式向 HintManager 中添加分片条件，该分片条件仅在当前线程内生效。除了通过编程的方式使用强制分片路由，Apache ShardingSphere 还可以通过 SQL 中的特殊注释的方式引用 Hint，使开发者可以采用更加透明的方式使用该功能。功与否。本地事务在性能方面无任何损耗，但在强一致性以及最终一致性方面则力不从心。两阶段提交 XA 协议最早的分布式事务模型是由 X/Open 国际联盟提出的 X/Open Distributed Transaction Processing (DTP) 模型，简称 XA 协议。基于 XA 协议实现的分布式事务对业务侵入很小。它最大的优势就是对使用方透明，用户可以像使用本地事务一样使用基于

0 码力 | 406 页 | 4.40 MB | 1 年前
3
Apache ShardingSphere 中文文档 5.0.0-alpha

ShardingSphere 中叫做 Hint。实现机制 Apache ShardingSphere 使用 ThreadLocal 管理分片键值。可以通过编程的方式向 HintManager 中添加分片条件，该分片条件仅在当前线程内生效。除了通过编程的方式使用强制分片路由，Apache ShardingSphere 还计划通过 SQL 中的特殊注释的方式引用 Hint，使开发者可以采用更加透明的方式使用该功能。将多个执行结果集归并以便于通过统一的 JDBC 接口输出。结果归并包括流式归并、内存归并和使用装饰者模式的追加归并这几种方式。解析引擎相对于其他编程语言，SQL 是比较简单的。不过，它依然是一门完善的编程语言，因此对 SQL 的语法进行解析，与解析其他编程语言（如：Java 语言、C 语言、Go 语言等）并无本质区别。抽象语法树解析过程分为词法解析和语法解析。词法解析器用于将 SQL 拆解为不可再分的原子符号，称为解析之后的为抽象语法树见下图。为了便于理解，抽象语法树中的关键字的 Token 用绿色表示，变量的 Token 用红色表示，灰色表示需要进一步拆分。最后，通过 visitor 对抽象语法树遍历构造域模型，通过域模型（SQLStatement）去提炼分片所需的上下文，并标记有可能需要改写的位置。供分片使用的解析上下文包含查询选择项（Select Items）、表信息（Table）、分片条件（Sharding

0 码力 | 301 页 | 3.44 MB | 1 年前
3
Apache ShardingSphere 中文文档 5.1.2

）、流量变形（数据加密、数据脱敏）、流量鉴权（安全、审计、权限）、流量治理（熔断、限流）以及流量分析（服务质量分析、可观察性）等透明化增量功能； • 可插拔：项目采用微内核 + 三层可插拔模型，使内核、功能组件以及生态对接完全能够灵活的方式进行插拔式扩展，开发者能够像使用积木一样定制属于自己的独特系统。 ShardingSphere 已于 2020 年 4 月 16 日成为 Apache ShardingSphere 中叫做 Hint。实现机制 Apache ShardingSphere 使用 ThreadLocal 管理分片键值。可以通过编程的方式向 HintManager 中添加分片条件，该分片条件仅在当前线程内生效。除了通过编程的方式使用强制分片路由，Apache ShardingSphere 还可以通过 SQL 中的特殊注释的方式引用 Hint，使开发者可以采用更加透明的方式使用该功能。功与否。本地事务在性能方面无任何损耗，但在强一致性以及最终一致性方面则力不从心。两阶段提交 XA 协议最早的分布式事务模型是由 X/Open 国际联盟提出的 X/Open Distributed Transaction Processing (DTP) 模型，简称 XA 协议。基于 XA 协议实现的分布式事务对业务侵入很小。它最大的优势就是对使用方透明，用户可以像使用本地事务一样使用基于

0 码力 | 446 页 | 4.67 MB | 1 年前
3
Apache ShardingSphere 中文文档 5.0.0

）、流量变形（数据加密、数据脱敏）、流量鉴权（安全、审计、权限）、流量治理（熔断、限流）以及流量分析（服务质量分析、可观察性）等透明化增量功能； • 可插拔：项目采用微内核 + 三层可插拔模型，使内核、功能组件以及生态对接完全能够灵活的方式进行插拔式扩展，开发者能够像使用积木一样定制属于自己的独特系统。 ShardingSphere 已于 2020 年 4 月 16 日成为 Apache ShardingSphere 中叫做 Hint。实现机制 Apache ShardingSphere 使用 ThreadLocal 管理分片键值。可以通过编程的方式向 HintManager 中添加分片条件，该分片条件仅在当前线程内生效。除了通过编程的方式使用强制分片路由，Apache ShardingSphere 还计划通过 SQL 中的特殊注释的方式引用 Hint，使开发者可以采用更加透明的方式使用该功能。 37 Apache ShardingSphere document, v5.0.0 两阶段提交 XA 协议最早的分布式事务模型是由 X/Open 国际联盟提出的 X/Open Distributed Transaction Processing (DTP) 模型，简称 XA 协议。基于 XA 协议实现的分布式事务对业务侵入很小。它最大的优势就是对使用方透明，用户可以像使用本地事务一样使用基于

0 码力 | 385 页 | 4.26 MB | 1 年前
3
Greenplum 精粹文集

具有很强数据操纵能力和过程语言的流程控制能力，SQL 语言是专门为统计和数据分析开发的语言，各种功能和函数琳琅满目，SQL 语言不仅适合开发人员，也适用于分析业务人员，大幅简化了数据的操作和交互过程。而对 MapReduce 编程明显是困难的，在原生的 Mapreduce 开发框架基础上的开发，需要技术人员谙熟于 JAVA 开发和并行原理，不仅业务分析人员无法使用，甚至技术人员也难以学习和操控。为了解决易用性的问题，近年来 Append-only 的特性，SQL-On-Hadoop 大多不支持数据局部更新和删除功能 (update/delete)；例如 Spark 计算时，需要预先将数据装载到 DataFrames 模型中；基本上都缺少索引和存储过程等特征除 HAWQ 外，大多对于 ODBC/JDBC/DBI/OLEDB/.NET 接口的支持有限，与主流第三方 BI 报表工具的兼容性不如 MPP 数据库的任务和用于少数次的访问，而且主要用于 Batch（不需要交互式），对计算性能不是很敏感，那 Hadoop 也是不错的选择，因为 Hadoop 不需要你花费较多的精力来模式化你的数据，节省数据模型设计和数据加载设计方面的投入。这些系统包括：历史数据系统、ETL 临时数据区、数据交换平台等等。切记，千万不要为了大数据而大数据（就好像不要为了创新而创新一个道理），否则，你项目最后的产出与你的最初设想可能

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

generate_series(1,30:: bigint) AS ID) foo DISTRIBUTED BY (id); 2017.thegiac.com 2017.thegiac.com • 适合模型应用于数据子集的场景，并行执行效率非常高 • 如果节点间数据通讯，使用适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 PageRank 性能 2017.thegiac.com MADlib vs. Spark: 不不同的产品，侧重点不不同 MADlib Spark 算法库易用性需要编程查询优化成熟度稍差内存和流处理通过 Gemfire SQL 语法支持需要提升磁盘数据不是核心焦点并发性能不是核心焦点大数据关联不是核心焦点 2017.thegiac.com ⽤用户案例例 1 Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测模型不不够精准，需要更更好的邮件营销策略略 ● 现有数据分析流程繁琐，速度慢，有很多⼿手动步骤，易易出错客户数据科学解决⽅方案 ● 某⼤大型跨国多元化传媒和娱乐公

0 码力 | 58 页 | 1.97 MB | 1 年前
3

共 78 条前往

页

分类

语言

格式

兼容龙蜥的云原生大模型数据计算系统：πDataCS

大模型时代下向量数据库的设计与应用

传智播客 mybatis 框架课程讲义

Apache ShardingSphere 中文文档 5.1.1

Apache ShardingSphere 中文文档 5.1.0

Apache ShardingSphere 中文文档 5.0.0-alpha

Apache ShardingSphere 中文文档 5.1.2

Apache ShardingSphere 中文文档 5.0.0

Greenplum 精粹文集

Greenplum机器学习⼯具集和案例