列存储 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

云原生虚拟数仓PieCloudDB Database产品白皮书

。数据被称为数字经济时代的“石油”，如同石油驱动了工业化时代的进步，大数据将推动智能化与数字化时代的发展。数据量的爆发式增长为了挖掘数据的价值，企业面临着海量数据的存储与分析需求，业务也面临着更多热点及突发流量所带来的挑战。面对数据计算（Data Computing）的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样，企业的数字化转型面临巨大挑战服务器为单位，通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录， MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时，所有机器同时并行计算，理论上最高可以把计算时间降低到单机部署的 1/n（n为机器数量），节省了海量数据的处理时间。传统数据仓库的计算和存储是紧密耦合的，计算资源和存储资源按某一比例强绑定，因此用户在扩容时，必须同时扩容计算资源和存储资源，在扩缩容、运本高昂传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产环境资源利用率，无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长，面临数据库的扩容和升级时，由于传统数据仓库架构存储和计算的紧密耦合，往往需要企业花费巨大的运维和时间成本，且操作繁琐。木桶效应传统 MPP 数据仓库架构存在“木桶效应”

0 码力 | 17 页 | 2.02 MB | 1 年前
3
PieCloudDB Database 产品白皮书

击需视各2nk 2n 2n6 201 2018 20192070 20717022 2973 2024 2025 1DC:全球数据圈预测数据量的爆发式增长为了挖掘数据的价值，企业面临着海量数据的存储与分析需求，业务也面临着更多热点及突发流量所带来的挑战。面对数据计算 (Data Computing) 的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样，企业的数字化转型面临巨大挑传统数仓的痛点很多受欢迎的数据库仓库均为分布式数据库，而典型分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位，通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时，所有机器同时并行计算，理论上最把计算时间降低到单机部署的 1/n (n为机器数量) ，节省了海量数据的处理时间。，节省了海量数据的处理时间。传统数据仓库架构然而，随着数据量的不断尝升，企业对数据仓库的要求也越来越高，在使用过程中，传统 MPP 数据库解决方案迎来了一系列的瓶颈: 传统数据仓库的计算和存情是| 容计算资源和存储资源，在扩缩容、运维、迁移上都存在一，报表结! 传统数据仓库无法及时扩导致大数据系统天价值所带来的商业机会用户在扩必须同时扩企业遇到负时刻或需要紧急得到某个法弹

0 码力 | 17 页 | 2.68 MB | 1 年前
3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

-> PieCloudDB 增量数据实时 cdc 演示 01 02 03 04 eMPP架构存算分离，元数据/缓存/计算/云存储 01 02 03 04 各模块可以独立伸缩，模块间接口统一每一组计算节点组成一个集群，多集群共享元数据和存储系统计算节点高度并行 05 兼容 PostgreSQL 生态 PieCloudDB eMPP 分布式架构导出 (Extract) 流式传输 ETL本质是不同系统（数据组织形式）之间的数据移动 ETL • 便宜可扩展的对象存储，各系统通用 • 最好的 ETL 就是不需要 ETL，各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式 Table产生的 raw 数据，转换为内部行格式，生成需要的各列 CREATE FUNCTION formatter(input bytea) RETURNS user_type …; SELECT meta, raw FROM foreign_table LATERAL JOIN formatter(raw); • INSERT 模式，步骤3 对解析出的列执行数据转换操作 SELECT r.a, r.b+r

0 码力 | 29 页 | 5.24 MB | 1 年前
3
PieCloudDB：云原生分布式虚拟数仓的诞生之旅

18年+基础软件⼀线经验 • 9年：Unix/Linux应⽤和内核开发、虚拟化（芯⽚KVM内核⽀持）、⾼速⽹络开发（NIC驱动、IB、DPDK、OVS offload）等. • 2年：分布式系统（存储和缓存）开发、云计算平台架构. • 7年+：数据库内核开发 (HAWQ、PG、Greenplum、PieCloudDb). • 现在负责拓数派的整个研发管理. • 毕业于中国科学技术⼤学（专业语⾳识别） reserved. OpenPie Confidential PieCloudDB简介 (cont.) • 2022年10.24发布1.0版本，技术和产品上实现了云原⽣. • 计算和存储分离：弹性计算 & 弹性存储. • 计算和存储都：按需付费. • 多租⼾隔离. • 2023年3.14上公有云（阿⾥云）. • 更多功能增强 @2022 OpenPie. All rights reserved. OpenPie OpenPie Confidential PieCloudDB简介 (cont.) • 为什么我们觉得数据库云原⽣很重要？ • 破除数据隔离（⼀份数据就好）. • 否则⼀致性问题、也浪费存储空间. • 数据作为新的⽣产要素要流通起来才有更⼤价值. • 参考云被认同的时间线. • 弹性伸缩（成本 & 性能 & 灵活）. • 云对于⼩中⼤客⼾都有价值. @2022 OpenPie. All rights

0 码力 | 24 页 | 2.01 MB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

• 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化（芯⽚KVM⽀持实现）和云计算架构、⾼速⺴络开发（内核和应⽤层如DPDK） • 分布式系统（SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发一个eMPP 云原生分布式SQL数据库一个云原生实时大数据平台基座愿景：安全可靠使用简单功能齐全性能极致传统分布式MPP架构痛点云解决了什么？借助于云上分布式存储，解耦存储借助于虚拟化技术和之上的IaaS，解耦计算池化资源，按需使用基础软件尤其是数据库软件上云已是大势所趋用户专注于使用，其他事情交给IaaS/SaaS厂商上云 ≠ 云原生计算&存储弹性智能化云原生平台多租户隔离 • 存储资源和计算资源：分离和隔离 • 资源伸缩快速简单 • 计算、存储：按需付费 • 智能管理，复杂交给*aaS厂商多集群是另外一个弹性的维度 • 共享用户数据（如按需付费的对象存储） • 共享元数据 • MPP架构：分布式，海量数据并行处理 • e代表弹性(elastic) 完善的Postgres生态为什么选择Postgres？ • 关于Postgres • 公司中⽴，开源协议友好，国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展，插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持 (原⽣或者插件）

0 码力 | 31 页 | 1.43 MB | 1 年前
3
兼容龙蜥的云原生大模型数据计算系统：πDataCS

驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。拓数派旗下大模型数据计算系统（PieDataComputing System，缩写πDataCS），以云原生技术重构数据存储和计算，一份存储，多引擎数据计算，全面升级大数据系统至大模型时代，使得自主可控的大模型数据计算系统保持全球领先，成为AI的基础科技底座的同时，开启AI技术的新范式。 πDataCS旨在助力企业优化计算大模型训练… 自研简墨存储 … 统一数据格式 | 一份数据多引擎计算｜兼容主流云存储格式和协议智能新硬件技术 πFPGA 数据存储｜虚拟数仓 | 特定领域（如神经网络）私有云 Mundo元数据管理系统统一Catalog 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题，是大数据技术中的基石。让用户可以在不了解分布式底层细节的情况下，开发分布式程序，以一种可靠、高效、可伸缩的方式进行数据处理。组件很多，常见约30个，基础组件包括：Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari，其他的计算引擎、列存数据库等都需要额外的组件，应对不同的场景需要安装对应的组件和依赖。生态丰富，对结构化数据、半结构化数据以及非结构化数据都支持，可以很好的完成各种业务场景的数据处理需求。但是对于开发的要求比较高，需要掌握多种

0 码力 | 29 页 | 7.46 MB | 1 年前
3
πDataCS赋能工业软件创新与实践

⼤模型数据计算系统，以云原⽣技术重构数据存储和计算，⼀份数据，多引擎数据计算，AI数学模型、数据和计算三者互为增强，全面升级⼤数据系统⾄⼤模型时代，赋能⾏业AI场景应用。具备整体数据平台⽅案，支持多模数据处理（结构化、半结构化以及非结构化数据），实现数据共享和分析。软件优化 + 新硬件（FPGA）加速，实现数据全链路的性能飞跃，让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 πCloudDB πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (⼤模型)机器学习向量数据计算⼤模型训练… 自研简墨存储 … 统⼀数据格式 | ⼀份数据多引擎计算｜兼容主流云存储格式和协议智能新硬件技术 πFPGA 数据存储｜虚拟数仓 | 特定领域（如神经⽹络）私有云 Mundo元数据管理系统统⼀Catalog @2024 OpenPie. All rights 原⽣数据平台是⼀个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题，是⼤数据技术中的基⽯。让用户可以在不了解分布式底层细节的情况下，开发分布式程序，以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。组件很多，常见约30个，基础组件包括：Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari，其他的计算引擎、列存数据库等都需要额外

0 码力 | 36 页 | 4.25 MB | 1 年前
3
PieCloudDB Database V2.1 版本说明

到连接操作之前去执行，极大的减少连接操作需要处理的数据量，使得查询性能显著提升。 • 实现了 Block Skipping 的优化机制：数据库运行查询语句时，通过计算每个块（block）中列聚集信息，在执行期间跳过非必要的数据块，减少数据读取量提高查询性能。 • 极速 Analyze（Smart Analyze）： PieCloudDB 实现极速 Analyze，更快的生成精确加速。 • 存储引擎简墨（JANM）异常处理的优化：避免各种异常情况下数据残留。 • 简墨（JANM）分布式处理增强：更高效的元数据采集和分发，提升用户查询响应时间，降低系统负载 • 简墨（JANM）动态分配读取文件增强 dispatch 性能：此优化将动态的分配要读取的文件给各个执行节点，降低查询的启动代价。 • 原生格式存储：在 HDFS/NAS HDFS/NAS 系统上支持原生存储格式。 • 对 Orca 的支持：PieCloudDB 支持查询优化器 Orca。Orca 是一款开源的、基于 Cascades 模型的模块化查询优化器，帮助用户对 SQL 进行优化，生成高效的查询计划。 • 支持超大数据量字段 • 支持快速 ETL/ELT： Kafka 流数据导入支持，copy 性能大幅提升。

0 码力 | 3 页 | 257.15 KB | 1 年前
3
大模型时代下向量数据库的设计与应用

与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验，在加入拓数派前曾就职于开源大数据平台Greenplum团队，担任外部数据源访问框架，对象存储访问扩展，ETL工具等产品模块的研发，并曾参与PostgreSQL多个版本的代码贡献，拥有丰富的存储模块核心开发和性能优化等实践经验。邱培峰拓数派向量数据库负责人拓数派：大模型数据计算系统先行者 • 拓数派（ OpenPie）是立足于国内的基础数据计算领域高科技 P10 （filtered） P2 （filtered）向量数据库 • 存储向量和原始实体(文字/图像/语音)及元信息，并将它们关联起来 • 对向量数据建立索引，可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发，为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发，为其开发向量搜索及索引算法 PieCloudVector • 支持二进制索引 • 支持多级索引如HNSW+IVF等 • CPU多核并行/GPU加速 PieCloudVector • Faiss与postgres内核对接 - 基础接口 • 增加向量列类型用于基本的加载与卸载 • 实现向量距离运算符 • 实现向量近似搜索的索引，调用faiss PieCloudVector • Faiss与postgres内核对接 - 数据可见性 • fa

0 码力 | 28 页 | 1.69 MB | 1 年前
3
PieCloudDB：基于PostgreSQL的eMPP云原生数据库

基础数据计算领域的世界级高科技创新驱动机构 CONTENTS @2022 OpenPie. All rights reserved. OpenPie Confidential 云解决了什么？借助于云上分布式存储，解耦存储借助于云上虚拟化技术和之上的IaaS，解耦计算池化资源，按需使用基础软件尤其是数据平台上云已是大势所趋用户专注于使用，运维等工作交给IaaS/SaaS厂商 @2022 OpenPie OpenPie. All rights reserved. OpenPie Confidential 上云 ≠ 云原生弹性计算智能化云原生平台多租户 • 产品要能支持存储资源和计算资源的分离 • 产品要能快速进行计算资源的弹性伸缩 @2022 OpenPie. All rights reserved. OpenPie Confidential 我们需要一个云原生大数据平台缺乏弹性 Postgres生态支持安全友好的用户接口（WebSql, ODBC/JDBC driver等). 云原生 • 弹性计算资源（横向和纵向）、极速调整 • 共享用户数据（典型如廉价对象存储） • 共享元数据 • MPP架构：分布式，海量数据并行处理 @2022 OpenPie. All rights reserved. OpenPie Confidential Postgres

0 码力 | 45 页 | 1.32 MB | 1 年前
3

共 20 条前往

页

分类

语言

格式

云原生虚拟数仓PieCloudDB Database产品白皮书

PieCloudDB Database 产品白皮书

云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

PieCloudDB：云原生分布式虚拟数仓的诞生之旅

云原生数据库 PieCloudDB eMPP架构设计与实现

兼容龙蜥的云原生大模型数据计算系统：πDataCS

πDataCS赋能工业软件创新与实践

PieCloudDB Database V2.1 版本说明

大模型时代下向量数据库的设计与应用

PieCloudDB：基于PostgreSQL的eMPP云原生数据库