文件存储 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PieCloudDB：基于PostgreSQL的eMPP云原生数据库

基础数据计算领域的世界级高科技创新驱动机构 CONTENTS @2022 OpenPie. All rights reserved. OpenPie Confidential 云解决了什么？借助于云上分布式存储，解耦存储借助于云上虚拟化技术和之上的IaaS，解耦计算池化资源，按需使用基础软件尤其是数据平台上云已是大势所趋用户专注于使用，运维等工作交给IaaS/SaaS厂商 @2022 OpenPie OpenPie. All rights reserved. OpenPie Confidential 上云 ≠ 云原生弹性计算智能化云原生平台多租户 • 产品要能支持存储资源和计算资源的分离 • 产品要能快速进行计算资源的弹性伸缩 @2022 OpenPie. All rights reserved. OpenPie Confidential 我们需要一个云原生大数据平台缺乏弹性 Postgres生态支持安全友好的用户接口（WebSql, ODBC/JDBC driver等). 云原生 • 弹性计算资源（横向和纵向）、极速调整 • 共享用户数据（典型如廉价对象存储） • 共享元数据 • MPP架构：分布式，海量数据并行处理 @2022 OpenPie. All rights reserved. OpenPie Confidential Postgres

0 码力 | 45 页 | 1.32 MB | 1 年前
3
PieCloudDB Database V2.8 Release Note

发布日期： 2023 年 10 月内核 l 回收站功能实现回收站来跟踪逻辑上被删除（TRUNCATE/DROP/ALTER 等）的表，这些表对应的 S3 Block 文件在超过保留期限后会被 autovacuum 删除。 l PieCloudDB 全局缓存系统 n 支持在计算节点为一个查询缓存所需的目录（catalog）信息，在每个虚拟数仓中，只有一 60%-95% 的存储空间。 2 l 优化 Block Skipping 实现 JANM 的虚拟索引。对于某些特殊的访问方法，表的数据文件/块已经包含可以用作索引的信息，通过虚拟索引不仅可以利用这些信息来提高性能，而且能减少维护开销。 l 简墨 JAMN 相关优化 n 通过 Delte Encoding 优化 JAMN 文件存储空间。 n 支持指定支持指定 JAMN 文件数据压缩方法，包括 None、PGLZ 或者 ZSTD。使用 ZSTD 压缩方法可以大幅度提高数据文件压缩率，降低数据文件存储成本。 n 支持预聚集块扫描节点，对 JAMN 文件块中的数据进行预聚集计算。 n 增强 JANM Data Skipping 对 IN 条件的处理能力。 n 新增 GUC 参数 pdb_enable_janm_toast，控制

0 码力 | 4 页 | 144.49 KB | 1 年前
3
PieCloudDB Database 社区版集群安装部署手册 V2.1

.............................................................................. 23 3.11 修改 PDB 配置文件信息 ................................................................................................ 所有服务器需要配置 yum，且能够连接 Internet。 l 部署方案有两种，请根据实际情况选择： Ø 本地无 K8S 环境和对象存储，请选择第二章节《PieCloudDB 和 K8S 一起部署方案》 Ø 本地有 K8S 环境和对象存储，请选择第三章节《PieCloudDB 基于已有 K8S 的部署方案》 2. PieCloudDB 和 K8S 一起部署方案 2_linux_amd64.tar.gz - C /root/.local/share/helm/plugins/helm-push ##在 Plugins 路径下创建 helm-push 文件夹，并将 helm-push_0.10.2_linux_amd64.tar.gz 解压到该文件夹下 2.11 推送 PDB 相关 chart 到 harbor 仓库在 master

0 码力 | 42 页 | 1.58 MB | 1 年前
3
PieCloudDB 的云原生之路

IvorySQL开源数据库社区云解决了什么？借助于云上分布式存储，解耦存储借助于云上虚拟化技术和之上的 IaaS，解耦计算池化资源，按需使用基础软件尤其是数据平台上云已是大势所趋用户专注于使用，运维等工作交给 IaaS/SaaS 厂商 IvorySQL开源数据库社区上云≠云原生弹性计算智能化云原生平台多租户 • 产品要能支持存储资源和计算资源的分离 • 产品要能快速进行计算资源的弹性伸缩发现：在云上，对计算模型以更低成本提供指数级的存储和计算资源，帮助甲方的业务模型发现新洞察或者提高精准度，从而建立竞争壁垒。 1 2 3 产品理念最终实现大数据愿景 Big Data Promises Finally Come True IvorySQL开源数据库社区 • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难（后期升级部署困难）扩展困难（后期升级部署困难） • 木桶效应 • 大量数据孤岛问题计算层存储层 MPP: Massive Parallel Processing eMPP : elastic Massive Parallel Processing 传统 PC 时代数据库 PieCloudDB 云原生时代数据库突破创新 eMPP 分布式专利技术加持 PieCloudDB 为企业构建「坚如磐石」的云原生虚拟数仓

0 码力 | 47 页 | 1.80 MB | 1 年前
3
PieCloudDB云原生数仓虚拟化之路

pieclouddb.com CONTENTS @2022 OpenPie. All rights reserved. OpenPie Confidential 云解决了什么？借助于云上分布式存储，解耦存储借助于云上虚拟化技术和之上的IaaS，解耦计算池化资源，按需使用基础软件尤其是数据平台上云已是大势所趋用户专注于使用，运维等工作交给IaaS/SaaS厂商 @2022 OpenPie OpenPie. All rights reserved. OpenPie Confidential 上云 ≠ 云原生弹性计算智能化云原生平台多租户 • 产品要能支持存储资源和计算资源的分离 • 产品要能快速进行计算资源的弹性伸缩 @2022 OpenPie. All rights reserved. OpenPie Confidential 我们需要一个云原生大数据平台缺乏弹性计算：云上计算资源可以弹性分配。有查询计算任务的时候按需启动，按照使⽤时间和规模计算成本，⽽不是购买⼤量服务器静置为不确定的使⽤额外⽀付成本。发现：在云上，对计算模型以更低成本提供指数级的存储和计算资源，帮助甲方的业务模型发现新洞察或者提高精准度，从⽽建⽴竞争壁垒。 1 2 3 产品理念最终实现大数据愿景 Big Data Promises Finally

0 码力 | 44 页 | 1.64 MB | 1 年前
3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

eMPP架构存算分离，元数据/缓存/计算/云存储 01 02 03 04 各模块可以独立伸缩，模块间接口统一每一组计算节点组成一个集群，多集群共享元数据和存储系统计算节点高度并行 05 兼容 PostgreSQL 生态 PieCloudDB eMPP 分布式架构导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式流式传输 ETL本质是不同系统 ETL本质是不同系统（数据组织形式）之间的数据移动 ETL • 便宜可扩展的对象存储，各系统通用 • 最好的 ETL 就是不需要 ETL，各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式

0 码力 | 29 页 | 5.24 MB | 1 年前
3
PieCloudDB Database V2.1 版本说明

加速。 • 存储引擎简墨（JANM）异常处理的优化：避免各种异常情况下数据残留。 • 简墨（JANM）分布式处理增强：更高效的元数据采集和分发，提升用户查询响应时间，降低系统负载 • 简墨（JANM）动态分配读取文件增强 dispatch 性能：此优化将动态的分配要读取的文件给各个执行节点，降低查询的启动代价。 • 原生格式存储：在 HDFS/NAS HDFS/NAS 系统上支持原生存储格式。 • 对 Orca 的支持：PieCloudDB 支持查询优化器 Orca。Orca 是一款开源的、基于 Cascades 模型的模块化查询优化器，帮助用户对 SQL 进行优化，生成高效的查询计划。 • 支持超大数据量字段 • 支持快速 ETL/ELT： Kafka 流数据导入支持，copy 性能大幅提升。外部数据源的查询（实验性功能）： PieCloudDB 支持 foreign-data wrapper 模块，使用户可以访问包括但不限于 HDFS、MySQL 等数据源，同时支持用户自行开发模块来访问新的存储数据源。管控平台 • 用户权限优化：通过更加清晰的 UI 设计，为用户提供一体化的权限管理 • 注册选项增加：增加了手机注册选项，用户现可选择通过手机或邮件进行用户注

0 码力 | 3 页 | 257.15 KB | 1 年前
3
兼容龙蜥的云原生大模型数据计算系统：πDataCS

驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。拓数派旗下大模型数据计算系统（PieDataComputing System，缩写πDataCS），以云原生技术重构数据存储和计算，一份存储，多引擎数据计算，全面升级大数据系统至大模型时代，使得自主可控的大模型数据计算系统保持全球领先，成为AI的基础科技底座的同时，开启AI技术的新范式。 πDataCS旨在助力企业优化计算大模型训练… 自研简墨存储 … 统一数据格式 | 一份数据多引擎计算｜兼容主流云存储格式和协议智能新硬件技术 πFPGA 数据存储｜虚拟数仓 | 特定领域（如神经网络）私有云 Mundo元数据管理系统统一Catalog 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题，是大数据技术中的基石。让用户可以在不了解分布式底层细节的情况下，开发分布期运维管理很麻烦，市场上相关人才储备量不多，技术兜底依赖于Cloudera，国内第三方公司主要是基础运维和开发为主。大模型数据计算系统，以云原生技术重构数据存储和计算，一份数据，多引擎数据计算。主要解决海量数据的存储和实时计算问题，具备湖仓一体化的能力，用户可根据实际情况去选择合适的数据计算引擎。灵活可扩展的插件式引擎，组件少而精（All in One），提供3种计算引擎、1种

0 码力 | 29 页 | 7.46 MB | 1 年前
3
云原生虚拟数仓PieCloudDB Database产品白皮书

。数据被称为数字经济时代的“石油”，如同石油驱动了工业化时代的进步，大数据将推动智能化与数字化时代的发展。数据量的爆发式增长为了挖掘数据的价值，企业面临着海量数据的存储与分析需求，业务也面临着更多热点及突发流量所带来的挑战。面对数据计算（Data Computing）的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样，企业的数字化转型面临巨大挑战服务器为单位，通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录， MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时，所有机器同时并行计算，理论上最高可以把计算时间降低到单机部署的 1/n（n为机器数量），节省了海量数据的处理时间。传统数据仓库的计算和存储是紧密耦合的，计算资源和存储资源按某一比例强绑定，因此用户在扩容时，必须同时扩容计算资源和存储资源，在扩缩容、运本高昂传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产环境资源利用率，无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长，面临数据库的扩容和升级时，由于传统数据仓库架构存储和计算的紧密耦合，往往需要企业花费巨大的运维和时间成本，且操作繁琐。木桶效应传统 MPP 数据仓库架构存在“木桶效应”

0 码力 | 17 页 | 2.02 MB | 1 年前
3
PieCloudDB Database 产品白皮书

击需视各2nk 2n 2n6 201 2018 20192070 20717022 2973 2024 2025 1DC:全球数据圈预测数据量的爆发式增长为了挖掘数据的价值，企业面临着海量数据的存储与分析需求，业务也面临着更多热点及突发流量所带来的挑战。面对数据计算 (Data Computing) 的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样，企业的数字化转型面临巨大挑传统数仓的痛点很多受欢迎的数据库仓库均为分布式数据库，而典型分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位，通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时，所有机器同时并行计算，理论上最把计算时间降低到单机部署的 1/n (n为机器数量) ，节省了海量数据的处理时间。，节省了海量数据的处理时间。传统数据仓库架构然而，随着数据量的不断尝升，企业对数据仓库的要求也越来越高，在使用过程中，传统 MPP 数据库解决方案迎来了一系列的瓶颈: 传统数据仓库的计算和存情是| 容计算资源和存储资源，在扩缩容、运维、迁移上都存在一，报表结! 传统数据仓库无法及时扩导致大数据系统天价值所带来的商业机会用户在扩必须同时扩企业遇到负时刻或需要紧急得到某个法弹

0 码力 | 17 页 | 2.68 MB | 1 年前
3

共 20 条前往

页

分类

语言

格式

PieCloudDB：基于PostgreSQL的eMPP云原生数据库

PieCloudDB Database V2.8 Release Note

PieCloudDB Database 社区版集群安装部署手册 V2.1

PieCloudDB 的云原生之路

PieCloudDB云原生数仓虚拟化之路

云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

PieCloudDB Database V2.1 版本说明

兼容龙蜥的云原生大模型数据计算系统：πDataCS

云原生虚拟数仓PieCloudDB Database产品白皮书

PieCloudDB Database 产品白皮书