时间序列分析 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PieCloudDB 的云原生之路

ie”），以 “Data Computing for New Discoveries”「数据计算，只为新发现」为使命，成立后的短短10个月时间内，完成了包括头部产业基金、东吴证券、元禾重元和政府科创平台在内的连续三轮战略融资。旗下云原生分析型数据库 PieCloudDB，以云计算架构为设计基础，首创全新 eMPP 分布式技术，帮助企业建立竞争壁垒的同时，实现数据价值最大化，并在新基建中承担可靠和可控数据：云上数据既是隔离也是连通。从安全的角度是隔离，同时具备数据共享的能力。例如：投资管理系统和财务管理系统可以各自管理，按需分享。计算：云上计算资源可以弹性分配。有查询计算任务的时候按需启动，按照使用时间和规模计算成本，而不是购买大量服务器静置为不确定的使用额外支付成本。发现：在云上，对计算模型以更低成本提供指数级的存储和计算资源，帮助甲方的业务模型发现新洞察或者提高精准度，从而建立竞争壁垒。 PieCloudDB 技术突破：数仓虚拟化云原生存算分离架构运用元数据-计算-数据分离的三层架构，实现云上存储资源与计算资源的独立管理。云上计算资源可弹性分配，有查询计算任务的时候按需启动，按照使用时间和规模计算成本。 eMPP 分布式专利技术在云上，PieCloudDB 利用 eMPP（elastic Massive Parallel Processing）架构，实现多集群并发执行任务。企

0 码力 | 47 页 | 1.80 MB | 1 年前
3
PieCloudDB云原生数仓虚拟化之路

ie”），以“Data Computing for New Discoveries”「数据计算，只为新发现」为使命，成立后的短短10个月时间内，完成了包括头部产业基金、东吴证券、元禾重元和政府科创平台在内的连续三轮战略融资。旗下云原生分析型数据库PieCloudDB，以云计算架构为设计基础，首创全新eMPP分布式技术，帮助企业建立竞争壁垒的同时，实现数据价值最大化，并在新基数据：云上数据既是隔离也是连通。从安全的⾓度是隔离，同时具备数据共享的能⼒。例如：投资管理系统和财务管理系统可以各⾃管理，按需分享。计算：云上计算资源可以弹性分配。有查询计算任务的时候按需启动，按照使⽤时间和规模计算成本，⽽不是购买⼤量服务器静置为不确定的使⽤额外⽀付成本。发现：在云上，对计算模型以更低成本提供指数级的存储和计算资源，帮助甲方的业务模型发现新洞察或者提高精准度，从⽽建⽴竞争壁垒。 oudDB技术突破：数仓虚拟化云原生存算分离架构运用元数据-计算-数据分离的三层架构，实现云上存储资源与计算资源的独⽴管理。云上计算资源可弹性分配，有查询计算任务的时候按需启动，按照使⽤时间和规模计算成本。 eMPP分布式专利技术在云上，PieCloudDB利⽤eMPP（elastic Massive Parallel Processing）架构，实现多集群并发执行任务。企业可灵活

0 码力 | 44 页 | 1.64 MB | 1 年前
3
PieCloudDB Database 产品白皮书

13 15 16 openpie | PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓产品白皮书百岗行业背景石油是工业的血液，数据是数字经济的“石油”，数据分析则是石油精炼。随着信息技术的发展，互联网应用的加速普及，人类进入了数字经济时代。进入二十一世纪以后，随着移动互联网技术、物联网技术、5G等技术的发展，全球数据圈 (Global Datasphere) 击需视各2nk 2n 2n6 201 2018 20192070 20717022 2973 2024 2025 1DC:全球数据圈预测数据量的爆发式增长为了挖掘数据的价值，企业面临着海量数据的存储与分析需求，业务也面临着更多热点及突发流量所带来的挑战。面对数据计算 (Data Computing) 的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样，企业的数字化转型面临巨大挑战，急服务器为单位，通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时，所有机器同时并行计算，理论上最把计算时间降低到单机部署的 1/n (n为机器数量) ，节省了海量数据的处理时间。传统数据仓库架构然而，随着数据量的不断尝升，企业对数据仓库的要求也越来越高，在使用过程中，传统 MPP 数据库解决方案迎来了一系列的瓶颈: 传统数据仓库的计算和存情是|

0 码力 | 17 页 | 2.68 MB | 1 年前
3
云原生虚拟数仓PieCloudDB Database产品白皮书

关于OpenPie 附录：术语表 3 3 3 4 5 6 7 7 8 11 13 15 16 目录行业背景石油是工业的血液，数据是数字经济的“石油”，数据分析则是石油精炼。随着信息技术的发展，互联网应用的加速普及，人类进入了数字经济时代。进入二十一世纪以后，随着移动互联网技术、物联网技术、5G等技术的发展，全球数据圈（Global Datasphere）呈指数级递增，。数据被称为数字经济时代的“石油”，如同石油驱动了工业化时代的进步，大数据将推动智能化与数字化时代的发展。数据量的爆发式增长为了挖掘数据的价值，企业面临着海量数据的存储与分析需求，业务也面临着更多热点及突发流量所带来的挑战。面对数据计算（Data Computing）的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样，企业的数字化转型面临巨大挑战，急需最高可以把计算时间降低到单机部署的 1/n（n为机器数量），节省了海量数据的处理时间。传统数据仓库的计算和存储是紧密耦合的，计算资源和存储资源按某一比例强绑定，因此用户在扩容时，必须同时扩容计算资源和存储资源，在扩缩容、运维、迁移上都存在一定的挑战。当企业遇到负载高峰时刻或需要紧急得到某个报表结果时，传统数据仓库无法及时扩资源，导致大数据系统无法弹性、快速地分析业务数据，错失了充分挖掘数据

0 码力 | 17 页 | 2.02 MB | 1 年前
3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现

Confidential • 在世界范围内的统计信息显示，Nosql和数据湖已经不在数据分析领域占有主要市场 • Nosql和数据湖缺少很多支持数据分析的重要特性 o 缺少在高并发场景下的隔离性和一致性 o 和现有的BI工具很难集成 • 关系型数据库已经重新成为数据分析的主要平台 NoSQL 和数据湖已经不再是数据分析的主要平台 @2022 OpenPie. All rights reserved OpenPie Confidential • Nosql本身对于高级分析支持差 o 图形，地理信息 • Nosql对于复杂查询的支持差 NoSQL和数据湖很难胜任数据分析的工作场景 @2022 OpenPie. All rights reserved. OpenPie Confidential • 使用数据湖为基础进行数据分析需要多个组件进行集成部署，多个组件的配合需要大量的开发工作 • • 许多缺乏 ANSI SQL 支持，需要专门的技术技能 • 专用引擎/工具（例如图形数据库）通常难以与记录系统集成，限制了分析和创新的操作化 NoSQL和数据湖为基础的基础设施需要的分析工具不容易集成和部署 @2022 OpenPie. All rights reserved. OpenPie Confidential • 公有云无限的计算池可以提供理想的弹性计算资源 • 公有云廉价且无限容量的对象存储

0 码力 | 43 页 | 1.14 MB | 1 年前
3
πDataCS赋能工业软件创新与实践

，AI数学模型、数据和计算三者互为增强，全面升级⼤数据系统⾄⼤模型时代，赋能⾏业AI场景应用。具备整体数据平台⽅案，支持多模数据处理（结构化、半结构化以及非结构化数据），实现数据共享和分析。软件优化 + 新硬件（FPGA）加速，实现数据全链路的性能飞跃，让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 @2024 OpenPie. All rights reserved 破：数仓虚拟化云原⽣存算分离架构运用元数据-计算-数据分离的三层架构，实现云上存储资源与计算资源的独立管理。云上计算资源可弹性分配，有查询计算任务的时候按需启动，按照使用时间和规模计算成本。 eMPP分布式专利技术在云上，PieCloudDB利用eMPP（elastic Massive Parallel Processing）架构，实现多集群并发执⾏任务。企业可灵活全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息，并⽣成更⾼效的查询计划，达奇优化器支持聚集下推，预计算，Block Skipping等⾼级特性，全面满⾜各种复杂的分析查询需求。 @2024 OpenPie. All rights reserved. OpenPie Confidential eMPP分布式专利技术架构阐述： 1. 云原⽣虚拟数仓，采用e

0 码力 | 36 页 | 4.25 MB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

苀：数据胚产口市用时间 I ` • • ．．．．． . ;· ······ o . 着．．．．．萨·······' 1 ·一．．．．．． :·· 干：” ．一：出击r 击．．．．．．． . . . r . . 嘶 · ．．．．．．．．．．．．．．．．．．．一．．．．． .................. ．．嚷············· once语义智能化云原⽣平台（数据服务平台）面向用户，做到开箱即用：离数据分析更近，离繁琐操作更远；面向运维，降低部署门槛：在不同的基础设施都能发挥实力；面向管理，让管理更轻松：让数据分析运行更透明；设计目的智能化云原⽣平台：⾯向⽤户、开箱即⽤ • 降低上⼿难度 — 让⽤户享受数据分析的乐趣 • 使⽤⻔槛低了 — 扩⼤平台受众 • 让更多⽤户离数据更近 — ⼀个数仓多个计算集群同时运⾏ • 针对不同⽤户业务负载或者不同场景，可以选择不同集群进⾏数据计算云原⽣平台⽀持 • 快速启动集群，随时可以关停，随时可以回收 • 结合集群操作记录，⽤户可以⽤最低的成本完成数据分析云原⽣平台同时提供 • 根据⾓⾊访问模型设计的权限系统，所⻅即可管 • ⽆论是平台功能还是数据库权限都可以在平台操作 PieCloudDB 的将来 • 理想的PieCloudDB：可靠、⾼效、简单、完备的SQL数据平台，

0 码力 | 31 页 | 1.43 MB | 1 年前
3
PieCloudDB：云原生分布式虚拟数仓的诞生之旅

(cont.) • 为什么我们觉得数据库云原⽣很重要？ • 破除数据隔离（⼀份数据就好）. • 否则⼀致性问题、也浪费存储空间. • 数据作为新的⽣产要素要流通起来才有更⼤价值. • 参考云被认同的时间线. • 弹性伸缩（成本 & 性能 & 灵活）. • 云对于⼩中⼤客⼾都有价值. @2022 OpenPie. All rights reserved. OpenPie Confidential Confidential 构建之路 - 数据存储 • 格式为什么不直接使⽤Parquet, etc? • 我们不需要存储schema. • 原⽣Postgres感知的存储格式：⽐如避免⼀些额外的反序列化. • 更加灵活可控实现. • …... • 但是我们还是可通过foreign data wrapper访问Parquet, etc. @2022 OpenPie. All rights reserved

0 码力 | 24 页 | 2.01 MB | 1 年前
3
云原生数据库PieCloudDB 性能优化之路

ie”），以“Data Computing for New Discoveries”「数据计算，只为新发现」为使命，成立后的短短10个月时间内，完成了包括头部产业基金、东吴证券、元禾重元和政府科创平台在内的连续三轮战略融资。旗下云原生分析型数据库 PieCloudDB，以云计算架构为设计基础，首创全新 eMPP 分布式技术，帮助企业建立竞争壁垒的同时，实现数据价值最大化，并

0 码力 | 26 页 | 711.44 KB | 1 年前
3
大模型时代下向量数据库的设计与应用

LLM训练数据有截止日期，不包含最新信息，无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道，无法接触到私域数据，对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力，对长时间交互的上下文 Query LLM Response 检索增强生成(RAG) • 将辅助增强数据通过embedding过程转换为向量，加载到向量数据库中并做索引 • 对每个用户输入同样通过em gpu搜索的特殊路径 • 避免并发调用gpu • 查询请求按批单线程提交 PieCloudVector • 兼容国产硬件和操作系统 PieCloudVector • 通过信通院测试案例分析 - 东吴证券秀财gpt • 采用自研大模型东吴秀财GPT + LangChain开发框架 + PieCloudVector向量数据库构建了AIGC应用平台，接入了交易应用的结构化数据和非结构

0 码力 | 28 页 | 1.69 MB | 1 年前
3

共 16 条前往

页

分类

语言

格式

PieCloudDB 的云原生之路

PieCloudDB云原生数仓虚拟化之路

PieCloudDB Database 产品白皮书

云原生虚拟数仓PieCloudDB Database产品白皮书

云原生虚拟数仓 PieCloudDB 的架构和关键模块实现

πDataCS赋能工业软件创新与实践

云原生数据库 PieCloudDB eMPP架构设计与实现

PieCloudDB：云原生分布式虚拟数仓的诞生之旅

云原生数据库PieCloudDB 性能优化之路

大模型时代下向量数据库的设计与应用