trace信息 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PieCloudDB Database 社区版集群安装部署手册 V2.1

.......................................................................... 6 2.5 修改 CONFIG.YAML 信息 .................................................................................................. ......................................................................... 18 3.5 修改 CONFIG.YAML 信息 .................................................................................................. ............................................................................ 23 3.11 修改 PDB 配置文件信息 ..................................................................................................

0 码力 | 42 页 | 1.58 MB | 1 年前
3
PieCloudDB Database 产品白皮书

openpie | PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓产品白皮书百岗行业背景石油是工业的血液，数据是数字经济的“石油”，数据分析则是石油精炼。随着信息技术的发展，互联网应用的加速普及，人类进入了数字经济时代。进入二十一世纪以后，随着移动互联网技术、物联网技术、5G等技术的发展，全球数据圈 (Global Datasphere) 呈指数级递增， IDC预测全球数据圈将于中，常常见到客户在需要扩容时，采取重新新建集群的方式。数据瑰岛随着业务的发展，数据量的增加，和信息化建设的需求，企业会为不同部门建设相应的业务信息化系统。我们在真实客户场景中，常常看到很多企业有成百上千个集群，但这些集群的元数据往往都是一样的。这种情况下，很多元数据会在不同集群间存在不一致的版本信息。此外，如果企业需要做跨集群的访问，往往非常困难，会造成数据孤岛的存在。运维成本对于传统限管控等能力; 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析，提供标准的 SQL 接口，且内置各种分析工具，并原生兼容 Postgres 生态，可以很好地处理地理信息数据和文本，未来会扩展其他 Ap| 接口，支持常见的数仓的数据分析和人工智能、数据科学等功能。 Openl SN Pie | PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓

0 码力 | 17 页 | 2.68 MB | 1 年前
3
云原生虚拟数仓PieCloudDB Database产品白皮书

附录：术语表 3 3 3 4 5 6 7 7 8 11 13 15 16 目录行业背景石油是工业的血液，数据是数字经济的“石油”，数据分析则是石油精炼。随着信息技术的发展，互联网应用的加速普及，人类进入了数字经济时代。进入二十一世纪以后，随着移动互联网技术、物联网技术、5G等技术的发展，全球数据圈（Global Datasphere）呈指数级递增， IDC预测全球数据圈将于中，常常见到客户在需要扩容时，采取重新新建集群的方式。数据孤岛随着业务的发展，数据量的增加，和信息化建设的需求，企业会为不同部门建设相应的业务信息化系统。我们在真实客户场景中，常常看到很多企业有成百上千个集群，但这些集群的元数据往往都是一样的。这种情况下，很多元数据会在不同集群间存在不一致的版本信息。此外，如果企业需要做跨集群的访问，往往非常困难，会造成数据孤岛的存在。运维成数据应用层：用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析，提供标准的 SQL 接口，且内置各种分析工具，并原生兼容 Postgres 生态，可以很好地处理地理信息数据和文本，未来会扩展其他 API 接口，支持常见的数仓的数据分析和人工智能、数据科学等功能。 PieCloudDB 产品概述拓数派旗下旗舰产品PieCloudDB，是以对行业顶级数据库

0 码力 | 17 页 | 2.02 MB | 1 年前
3
πDataCS赋能工业软件创新与实践

，保证用户的实时性需求。PieCloudDB针对底层对象存储设计了⾼效的⽂件格式，可在节省⽹络请求的同时提⾼计算效率。全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息，并⽣成更⾼效的查询计划，达奇优化器支持聚集下推，预计算，Block Skipping等⾼级特性，全面满⾜各种复杂的分析查询需求。 @2024 OpenPie. All rights reserved 中华⼈民共和国个⼈信息保护法（草案）信息安全技术⽹络安全等级保护（等级保护2.0）国家法律与全国性标准 • 2019年：中国⽹络安全等级保护2.0（等保2.0）起步年。同年《新密码法》和《个⼈信息保护法（专家建议稿）》等发布。 • 《⽹络安全法》第四⼗⼆条：⽹络运营者不得泄露、篡改、毁损其收集的个⼈信息；未经被收集者同意，不得向他⼈提供个⼈信息。但是，经过处理⽆法识别特定个⼈且不能复原的除外。但是，经过处理⽆法识别特定个⼈且不能复原的除外。 • 《中国银⾏业“⼗⼆五”信息科技发展规则监管指导意见》中提出，完善敏感信息存储与传输等⾼风险环节的控制措施，对数据、⽂档的访问应建立严格的审批机制，对用于测试的⽣产数据要进⾏脱敏处理，严格防⽌敏感信息泄露。存储层 Table Log … 密⽂存储⼀级密钥⼆级密钥三级密钥数据访问 PieDataCS 加密模块

0 码力 | 36 页 | 4.25 MB | 1 年前
3
PieCloudDB Database V2.8 Release Note

Block 文件在超过保留期限后会被 autovacuum 删除。 l PieCloudDB 全局缓存系统 n 支持在计算节点为一个查询缓存所需的目录（catalog）信息，在每个虚拟数仓中，只有一个目录信息副本从协调节点分发，并共享给所有 Slices/Backends。 n 支持在 PieCloudDB 全局缓存系统中添加本地缓存。 l HLL（HyperLogLog）压缩的存储空间。 2 l 优化 Block Skipping 实现 JANM 的虚拟索引。对于某些特殊的访问方法，表的数据文件/块已经包含可以用作索引的信息，通过虚拟索引不仅可以利用这些信息来提高性能，而且能减少维护开销。 l 简墨 JAMN 相关优化 n 通过 Delte Encoding 优化 JAMN 文件存储空间。 n 支持指定 JAMN 文件数据压缩方法，包括插件生成审计日志。 l Kafka 接口 n 支持获取 Kafka FDW 统计数据。 n Kafka FDW 支持 JSON 格式。 l 执行计划信息支持在 EXPLAIN ANALYZE VERBOSE 执行结果中显示调度相关状态信息。 4 l 用户定义函数 UDF n 新增 janm_page_size_read，用以获取 Page 大小。 n 新增

0 码力 | 4 页 | 144.49 KB | 1 年前
3
PieCloudDB Database V2.1 版本说明

Skipping 的优化机制：数据库运行查询语句时，通过计算每个块（block）中列聚集信息，在执行期间跳过非必要的数据块，减少数据读取量提高查询性能。 • 极速 Analyze（Smart Analyze）： PieCloudDB 实现极速 Analyze，更快的生成精确的查询规划统计信息，从而在查询时可以生成更优的查询计划。 • 全新的缓存机制：在 PieCloudDB 的计算层，各个计算节点针对元数据都设计了其中，针对元数据，PieCloudDB 实现了元数据层全新的缓存机制，有效减少了访问元数据服务器带来的网络通信开销和元数据服务器的负载，提高元数据访问的速度。 • 可观察性增强：可得到更多的查询时系统的统计信息，包括元数据管理、S3 等。 • Vacuum 优化：在元数据层通过快速过滤不需要 vacuum 的数据，从而实现 vacuum 加速。 • 存储引擎简墨（JANM）异常处理的优化：避免各种异常情况下数据残留。文本查找/替换 • 数据导入优化： o 支持数据导入时自由切入/切出页面，无需用户在导入界面停留等待 o 支持 text 文本格式 o 统一报错信息 • 数据库信息：增加表的大小（size）信息展示 • 计算集群：外部接入支持更多类型，用户可以更加灵活的配置端口范围

0 码力 | 3 页 | 257.15 KB | 1 年前
3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

收集执行结果，记录进度和错误信息 • INSERT/MERGE 模式 • INSERT 模式，支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式，步骤1 Ø PieCloudDB Foreign Table，postgres扩展，需要为数据源单独开发 Ø 控制节点上读取数据源信息，决定是否拆分，生成任务信息 Ø 计算节点上根据任务信息读取数据源，返回raw数据和元信息 CREATE

0 码力 | 29 页 | 5.24 MB | 1 年前
3
大模型时代下向量数据库的设计与应用

PieCloudVector架构设计与挑战 • 案例介绍大模型检索增强生成(RAG) 使用大模型可以构造问答，聊天等应用，但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期，不包含最新信息，无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道，无法接触到私域数据，对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力，对长时间交互的上下文 Query （filtered） P7 P8 （filtered） P9 P10 （filtered） P2 （filtered）向量数据库 • 存储向量和原始实体(文字/图像/语音)及元信息，并将它们关联起来 • 对向量数据建立索引，可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发，为其搭配数据库功能 • 从数据存储方案(关系型增加向量列类型用于基本的加载与卸载 • 实现向量距离运算符 • 实现向量近似搜索的索引，调用faiss PieCloudVector • Faiss与postgres内核对接 - 数据可见性 • faiss索引增加mvcc信息，与数据库内可见性保持一致 xmin xmax id vector 10 1 [1.0, 1.1, 1.2 …] 10 30 2 [1.0, 1.1, 1.2 …] 15 3 [1.0, 1

0 码力 | 28 页 | 1.69 MB | 1 年前
3
云原生数据库PieCloudDB 性能优化之路

PieCloudDB优化器之云原生特性简介 Q/A Contents 录目 01 • 预处理阶段 • 通过逻辑上的等价变换，把查询树转换为更加简单高效的等式 • 分发约束条件，收集外连接信息等 • 扫描/连接优化阶段 • 主要处理扫描和连接操作 • 扫描/连接之外的优化阶段 • 主要处理除扫描和连接之外的其他操作，例如聚集、排序等 • 后处理阶段 • 主要把前面的处理结果转换成执行器期望的形式 • 简化连接树 • 把 IN,EXISTS 等类型的子查询转换为半连接 • 提升子查询 • 把外连接转换为内连接 • 把外连接转换为反连接 • 分发约束条件 • 构建等价类 • 收集外连接信息 • 消除无用连接 • … SELECT … FROM foo WHERE EXISTS (SELECT 1 FROM bar WHERE foo.a = bar.c); => SELECT on foo -> Materialize -> Seq Scan on bar (5 rows) • 主要处理查询语句中FROM和WHERE部分 • 同时也会考虑到ORDER BY的信息 • 代价驱动 • 为基表生成扫描路径，并计算扫描路径的代价和结果集大小 • 搜索整个连接顺序空间，为连接操作生成连接路径 • O(n!) • 动态规划 • 遗传算法 • 考虑外连接对连接顺序的限制

0 码力 | 26 页 | 711.44 KB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

以Postgres原⽣的元数据缓存概念为基础，优化重构实现适⽤于多集群架构⽤户数据存储引擎 • PAX（⾏列混存）配以⾼效压缩 • Block⽂件为⼀个存储(MVCC)单位 • 辅助信息存储⽤于计算优化 • 设计考虑： • ⾼效和精准的统计信息收集 • 存储和计算成本 • 各种计算优化 • SIMD, Cache Line • Data Skipping (本地查询和远程读取） • 预聚集 • ...... 分布式对象存储多副本多可⽤区保证数据安全：“⼀份”数据，避免数据不⼀致 • 将来Time Travel查询“回收站”数据⽤户数据查询效率优化 • 远程访问数据要考虑的点：性能和成本 • 如何解决？ • 数据和/或辅助信息缓存，同时⼀致性Hash减少数据移动 • 读取优化（⽐如异步并⾏等） • 计算优化（各种功能特性持续优化中） • 很多复杂OLAP查询如果不是IO瓶颈，不会受制于它 • …... 计算引擎之优化器

0 码力 | 31 页 | 1.43 MB | 1 年前
3

共 15 条前往

页

分类

语言

格式

PieCloudDB Database 社区版集群安装部署手册 V2.1

PieCloudDB Database 产品白皮书

云原生虚拟数仓PieCloudDB Database产品白皮书

πDataCS赋能工业软件创新与实践

PieCloudDB Database V2.8 Release Note

PieCloudDB Database V2.1 版本说明

云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

大模型时代下向量数据库的设计与应用

云原生数据库PieCloudDB 性能优化之路

云原生数据库 PieCloudDB eMPP架构设计与实现