兼容龙蜥的云原生大模型数据计算系统:πDataCS--πDataCS简介 兼容龙蜥的云原生大模型数据计算系统 拓数派产品市场总监 吴疆 吴疆 深耕云计算和数据库行业十余年 拓数派(Openpie)产品市场总监 毕业于清华大学计算机系,先后在IBM,EMC, Pivotal,VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介 海 外 研 发 独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准, 驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为A 与东吴证券在数仓虚拟化和信创领域展开试点合作 12月 创始人冯雷再度荣登数字商业周刊“年度智造中国商业领袖” 4月 冯雷被评为杭州市所有的独角兽和准独角兽企业 中唯一“年度创业人物” 打造大模型时代 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派入选中国信通院“铸基计划”「高质量数字0 码力 | 29 页 | 7.46 MB | 1 年前3
大模型时代下向量数据库的设计与应用大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道,无法接触到私域数据,对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力,对长时间交互的上下文0 码力 | 28 页 | 1.69 MB | 1 年前3
SelectDB案例 从 ClickHouse 到 Apache Doris具有以下的优势: Apache Doris 的优势: Doris 架构极简易用,部署只需两个进程,不依赖其他系统,运维简单;兼容 MySQL 协议,并且使用标准 SQL。 支持丰富的数据模型,可满足多种数据更新方式,支持部分列更新。 支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查 询分析。 导入方式多样,支持从 术支持团队,在使用过程中遇到问题均能快速得到响应解决。 同时我们也利用 Doris 的特性,解决了架构 1.0 中较为突出的问题。 数仓层:Apache Doris 的 Aggregate 数据模型可支持部分列实时更新,因此我们去 掉了 DWM 集市层的构建,直接增量到 Doris / ES 中构建宽表,解决了架构 1.0 中 上游数据更新延迟导致整个宽表延迟的问题,进而提升了数据的时效性。数据(指 ,因此架构 需要支持部分列更新。 性能高效:具备高效的写入能力,且在圈选、洞察、报表等场景可以实现秒级响应。 控制成本:在满足业务需求的前提下,最大程度地降低成本;支持冷热数据精细化 管理,支持标签灵活上下架。 数据导入方案 为了减轻 Doris 写入压力,我们考虑在数据写入 Doris 之前,尽量将数据生成宽表,再写 入到 Doris 中。针对宽表的生成,我们有两个实现思路:第一个是在0 码力 | 12 页 | 1.55 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考继续建设多样化的postgresql数据集市,满足不同需求 • 优化现有业务的调度实现 Ø 时间周期的考量 Ø 并发与功能实现的权衡 Ø 增强任务可控性和可度量性 • 支持符合条件的新业务 Ø 抽象业务模型,整合使用分类 Ø 简化上线模型,优化上线方式 40 Greenplum扩展规划 新业务上线流程 • 把握三个方面,解决三个问题 Ø 确认数据来源与传输,解决原始数据从那里来的问题 Ø 确认数据如何计算,解决数据存储和计算加工的问题 公司内网GP小数据量计算,GP加载csv数据,GP大数据量统计 Ø 年表与实例无关,可以形成一个整体的大的Greenplum平台 Ø 网络互通,数据互通,相互备份 • 细节的深化 Ø 在现有OLAP三部分进行细化 Ø 对数据集市本身进行细化 43 THANK YOU0 码力 | 43 页 | 9.66 MB | 1 年前3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰一切以用户价值为依归 11 部署与监控管理 1 服务监控-扫描详情: 一切以用户价值为依归 12 部署与监控管理 1 服务监控-响应耗时: 一切以用户价值为依归 13 部署与监控管理 1 立体监控模型: 监控分层 监控项 敏感度 紧急度 应用层 业务指标,数据异常 低 高 服务层 错误日志 中 中 请求指标 扫描详情 响应耗时 物理层 磁盘IO, 持续负载,流量 高 低 一切以用户价值为依归 准实时传输管道 Kafka-Pipeline 实时管道 TDW 数据仓库 采 集 存 储 大数据应用 PaaS平台 数据挖掘与内容推荐 PaaS 精准 推荐 知识 图谱 精细化 运营 … iData 大数据分析PaaS 实时 分析 多维 分析 画像 分析 … DataMore 大数据应用PaaS 实时 决策 任务 系统 … 排 行 榜 大数据应用 SaaS系统 电竞 … 大数据基础PaaS平台 n 标准化、海量数据接入能力 n 实时化、低延时对接数据应用 n 异构化兼容能力 大数据应用PaaS服务 游戏数据驱动场景 n 实时干预游戏用户 n 精细化、精准化驱动场景服务 n 提升原有服务的增强效果 n iData大数据分析PaaS 在线实时能力 n iData大数据分析:多维分析,画像分析能力 n DataMore大数据实时决策能力 一切以用户价值为依归0 码力 | 26 页 | 3.58 MB | 1 年前3
Apache ShardingSphere 中文文档 5.1.1)、流量变形(数 据加密、数据脱敏)、流量鉴权(安全、审计、权限)、流量治理(熔断、限流)以及流量分析(服 务质量分析、可观察性)等透明化增量功能; • 可插拔:项目采用微内核 + 三层可插拔模型,使内核、功能组件以及生态对接完全能够灵活的方式 进行插拔式扩展,开发者能够像使用积木一样定制属于自己的独特系统。 ShardingSphere 已于 2020 年 4 月 16 日成为 Apache 据存量 随着应用的探索不断增加,数据的存储和计算模式无时无刻面临着创新。 面向交易、大数据、关联分析、物联网等场景越来越细分,单一数据库再也无法适用于所有的应用场景。 与此同时,场景内部也愈加细化,相似场景使用不同数据库已成为常态。由此可见,数据库碎片化的趋 势已经不可逆转。 4.1.2 挑战 并无统一标准的数据库的访问协议和 SQL 方言,以及各种数据库带来的不同运维方法和监控工具的异同, 视角的统一管理能 力,和针对单独组件细粒度的控制能力,是基于存算分离的现代数据库体系中不可或缺的功能。 4.2.2 挑战 管控的挑战,在于对集群的集中化管理的统一管理能力以及在单点出现故障时精细化的操作能力。 集中化管理的挑战体现在将包括数据库存储节点和中间件计算节点的状态统一管理,并且能够实时的探 测到分布式环境下最新的变动情况,进一步为集群的控制和调度提供依据。 面对超负荷的流量下0 码力 | 409 页 | 4.47 MB | 1 年前3
Apache ShardingSphere 中文文档 5.1.0)、流量变形(数 据加密、数据脱敏)、流量鉴权(安全、审计、权限)、流量治理(熔断、限流)以及流量分析(服 务质量分析、可观察性)等透明化增量功能; • 可插拔:项目采用微内核 + 三层可插拔模型,使内核、功能组件以及生态对接完全能够灵活的方式 进行插拔式扩展,开发者能够像使用积木一样定制属于自己的独特系统。 ShardingSphere 已于 2020 年 4 月 16 日成为 Apache 据存量 随着应用的探索不断增加,数据的存储和计算模式无时无刻面临着创新。 面向交易、大数据、关联分析、物联网等场景越来越细分,单一数据库再也无法适用于所有的应用场景。 与此同时,场景内部也愈加细化,相似场景使用不同数据库已成为常态。由此可见,数据库碎片化的趋 势已经不可逆转。 4.1.2 挑战 并无统一标准的数据库的访问协议和 SQL 方言,以及各种数据库带来的不同运维方法和监控工具的异同, 视角的统一管理能 力,和针对单独组件细粒度的控制能力,是基于存算分离的现代数据库体系中不可或缺的功能。 4.2.2 挑战 管控的挑战,在于对集群的集中化管理的统一管理能力以及在单点出现故障时精细化的操作能力。 集中化管理的挑战体现在将包括数据库存储节点和中间件计算节点的状态统一管理,并且能够实时的探 测到分布式环境下最新的变动情况,进一步为集群的控制和调度提供依据。 面对超负荷的流量下0 码力 | 406 页 | 4.40 MB | 1 年前3
Apache ShardingSphere 中文文档 5.1.2)、流量变形(数 据加密、数据脱敏)、流量鉴权(安全、审计、权限)、流量治理(熔断、限流)以及流量分析(服 务质量分析、可观察性)等透明化增量功能; • 可插拔:项目采用微内核 + 三层可插拔模型,使内核、功能组件以及生态对接完全能够灵活的方式 进行插拔式扩展,开发者能够像使用积木一样定制属于自己的独特系统。 ShardingSphere 已于 2020 年 4 月 16 日成为 Apache 据存量 随着应用的探索不断增加,数据的存储和计算模式无时无刻面临着创新。 面向交易、大数据、关联分析、物联网等场景越来越细分,单一数据库再也无法适用于所有的应用场景。 与此同时,场景内部也愈加细化,相似场景使用不同数据库已成为常态。由此可见,数据库碎片化的趋 势已经不可逆转。 4.1.2 挑战 并无统一标准的数据库的访问协议和 SQL 方言,以及各种数据库带来的不同运维方法和监控工具的异同, 视角的统一管理能 力,和针对单独组件细粒度的控制能力,是基于存算分离的现代数据库体系中不可或缺的功能。 4.2.2 挑战 管控的挑战,在于对集群的集中化管理的统一管理能力以及在单点出现故障时精细化的操作能力。 集中化管理的挑战体现在将包括数据库存储节点和中间件计算节点的状态统一管理,并且能够实时的探 测到分布式环境下最新的变动情况,进一步为集群的控制和调度提供依据。 面对超负荷的流量下0 码力 | 446 页 | 4.67 MB | 1 年前3
Apache ShardingSphere 中文文档 5.0.0)、流量变形(数 据加密、数据脱敏)、流量鉴权(安全、审计、权限)、流量治理(熔断、限流)以及流量分析(服 务质量分析、可观察性)等透明化增量功能; • 可插拔:项目采用微内核 + 三层可插拔模型,使内核、功能组件以及生态对接完全能够灵活的方式 进行插拔式扩展,开发者能够像使用积木一样定制属于自己的独特系统。 ShardingSphere 已于 2020 年 4 月 16 日成为 Apache 据存量 随着应用的探索不断增加,数据的存储和计算模式无时无刻面临着创新。 面向交易、大数据、关联分析、物联网等场景越来越细分,单一数据库再也无法适用于所有的应用场景。 与此同时,场景内部也愈加细化,相似场景使用不同数据库已成为常态。由此可见,数据库碎片化的趋 势已经不可逆转。 4.1.2 挑战 并无统一标准的数据库的访问协议和 SQL 方言,以及各种数据库带来的不同运维方法和监控工具的异同, 37 Apache ShardingSphere document, v5.0.0 两阶段提交 XA 协议最早的分布式事务模型是由 X/Open 国际联盟提出的 X/Open Distributed Transaction Processing (DTP) 模型,简称 XA 协议。 基于 XA 协议实现的分布式事务对业务侵入很小。它最大的优势就是对使用方透明,用户可以像使用本地 事务一样使用基于0 码力 | 385 页 | 4.26 MB | 1 年前3
TiDB中文技术文档示返回数据的第一行的偏移量(第一行数据的偏移量 是 0),第二个参数指定返回数据的最大条目数。 FOR UPDATE 对查询结果集所有数据上读锁,以监测其他事务对这 些的并发修改。TiDB 使用乐观事务模型在语句执行 期间不会检测锁冲突,在事务的提交阶段才会检测事 务冲突,如果执行 Select For Update 期间,有 其他事务修改相关的数据,那么包含 Select For Update 语句的事务会提交失败。 Not possible Not possible TiDB 实现了其中的两种:读已提交和可重复读。 TiDB 使用percolator事务模型,当事务启动时会获取全局读时间戳,事务提交时也会获取全局提交时间戳,并以 此确定事务的执行顺序,如果想了解 TiDB 事务模型的实现可以详细阅读以下两篇文章:TiKV 的 MVCC(Multi- Version Concurrency Control)机制,Percolator 语法,但是不做任何事情(pass through)。 不支持对enum类型的列进行修改 内建函数 DDL 与 MySQL 兼容性对比 - 172 - 本文档使用 书栈(BookStack.CN) 构建 TiDB 使用乐观事务模型,在执行 Update、Insert、Delete 等语句时,只有在提交过程中才会检查写写冲突, 而不是像 MySQL 一样使用行锁来避免写写冲突。所以业务端在执行 SQL 语句后,需要注意检查 commit0 码力 | 444 页 | 4.89 MB | 6 月前3
共 73 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8













