πDataCS赋能工业软件创新与实践Coordinator 销售 + 财务 + 投资 Executor 虚拟数仓 1 虚拟数仓 2 ... 虚拟数仓 N Executor ... 销售部门 ... ... 元数据统一 映射管理 元 数 据 S3 /HDFS/NAS Data Table Data Table Data Table Executor Executor Executor Executor 虚拟数仓2 执⾏器 … 连接管理 查询优化器 资源隔离 向量化执⾏ 事务管理 执⾏计划 并⾏计算 ⾼可用 数据查询 数据加载 弹性伸缩 自定义函数 集群管控 元数据访问 业务数据读写 元数据映射 元数据: Ø 分布式KV,存储系统表 Ø 基于key的自然排序实现索引 Ø ⾼性能 Ø 基于watcher机制的⾼效分布式锁管理 Ø 基于MVCC的事务隔离级别 Ø 多集群数仓数据共享 据以及车联⽹数据等数据的分析和应 用。具体如下: Ø 替换了Hive数仓,采用PieCloudDB云原⽣虚拟数仓作为数仓服务,整体数仓的SQL执⾏性能是原Hive的30倍; Ø 支持更多的数据源,具备全量和增量数据同步功能,优化了数据采集和⼊库的性能,可通过ChunJun进⾏实时⼊库, 性能较传统GP提升了6倍; Ø 升级了数据中台的安全审计应用,采用PieCloudDB替换了ES,支持0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB 的云原生之路数据孤岛,解决数据多副本问题,帮助企业降低数 仓管理复杂度,以更低的成本实现存算资源在云上 更灵活的配置。 TDE 技术保证了所有数据在落盘前完成加密,服务 器无感知技术(Serverless)利用云上无限计算资 源和弹性保证了虚拟数仓永远在线可用,S3 存储和 跨云灾备能力保证了永不丢数。 数据计算资源按需扩缩容,实现计算资源配置最优化, 提升数仓的敏捷性和弹性,打开无限数据计算空间, 更好地赋能业务发展并走向绿色。 投资 Segment 虚拟数仓 1 虚拟数仓 2 ... 虚拟数仓 N Segment ... 销售部门 ... ... 存储节点统一进 S3/HDFS/NAS 元数据统一 映射管理 ü 数量级降低成本的时候数量级增加数据计算空间(私有部署更加敏感) 元数据 FoundationDB CataLog S3 /HDFS/NAS Data Table Data Table0 码力 | 47 页 | 1.80 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现• 多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 • 错误处理 • 任务调度总控 pdbconduct • 数据源提取(插件/客户端工具) • 计算节点 Foreign Table, Formatter • 任务调度总控 pdbconduct • 独立运行,通常在 PieCloudDB 控制节点上 • 按需启动数据源(插件)导出 与现有数据没有逻辑关联的时序数据流 • INSERT 模式,步骤1 Ø PieCloudDB Foreign Table,postgres扩展,需要为数据源单独开发 Ø 控制节点上读取数据源信息,决定是否拆分,生成任务信息 Ø 计算节点上根据任务信息读取数据源,返回raw数据和元信息 CREATE FOREIGN TABLE foreign_table(meta text, raw bytea); SELECT0 码力 | 29 页 | 5.24 MB | 1 年前3
PieCloudDB Database V2.1 版本说明ETL/ELT: Kafka 流数据导入支持,copy 性能大幅提升。 • 外部数据源的查询(实验性功能): PieCloudDB 支持 foreign-data wrapper 模块,使用户可以访问包括但不限于 HDFS、MySQL 等数据源,同时支持用户自行开发 模块来访问新的存储数据源 。 管控平台 • 用户权限优化:通过更加清晰的 UI 设计,为用户提供一体化的权限管理0 码力 | 3 页 | 257.15 KB | 1 年前3
PieCloudDB Database 产品白皮书 失败对业务的影响,保证了数据的安全。当业务有升级或更换服务需求时,可对节点进行不中断服务的逐渐升级。 数据透明加密 (TDE) 技术保证了所有数据在落盘前完成加密,服务器无感知技术 (Serverles5) 利用云上无限计算资 源和弹性保证了虚拟数仓永远在线可用,53 存储和足云灾备能力保证了永不委数。 * 敏所可靠 传统数据仓库的黑箱状态,导致企业无法及时处理扩容、节点故障等问题。而 PieCloudDB 云原生虚拟数仓部署在云 K实时进行输入/输出数据加密和解 密,整个过程对应用完全透明,应用无需感知; 。 ”服务无感知; 数据仓库的“Serverless”化,让用户使用数仓服务时不用关心服务器的架构和存在,所有底层资 源的调度全部由云虚拟数仓后台自动化完成; 。 Anatyze : ”收集数据仓库中表内容的统计信息,并将结果存储在系统表中,查询优化器使用这些统计信息来确 定查询的最有效执行计划; 。 ETL :0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书务有升级或更换服务需求时,可对节点进行不中断服务的逐渐升级。 数据透明加密(TDE) 技术保证了所有数据在落盘前完成加密,服务器无感知技术 (Serverless) 利用云上无限计算资 源和弹性保证了虚拟数仓永远在线可用,S3 存储和跨云灾备能力保证了永不丢数。 敏捷可靠 降低数仓硬件和管理成本 传统数据仓库的黑箱状态,导致企业无法及时处理扩容、节点故障等问题。而 PieCloudDB 进行输入/输出数据加密和解 密,整个过程对应用完全透明,应用无需感知; 服务无感知: 数据仓库的“Serverless”化,让用户使用数仓服务时不用关心服务器的架构和存在,所有底层资 源的调度全部由云虚拟数仓后台自动化完成; Analyze : 收集数据仓库中表内容的统计信息,并将结果存储在系统表中,查询优化器使用这些统计信息来确 定查询的最有效执行计划; ETL : E0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路投资 Segment 虚拟数仓 1 虚拟数仓 2 ... 虚拟数仓 N Segment ... 销售部门 ... ... 存储节点统一进 S3/HDFS/NAS 元数据统一 映射管理 ü 数量级降低成本的时候数量级增加数据计算空间(私有部署更加敏感) 元数据 FoundationDB CataLog S3 /HDFS/NAS Data Table Data Table0 码力 | 44 页 | 1.64 MB | 1 年前3
大模型时代下向量数据库的设计与应用目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者0 码力 | 28 页 | 1.69 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现materization,...... 分布式计算引擎 • MPP弹性计算引擎:按需付费 • 租户隔离(彼此不影响) • ⾼可⽤(⾃动处理各种错误) • ⾼并发 PieCloudDB⽣态 • 各种外表数据源联邦查询组件天然⽀持(或者需少量修改) • 各种Postgres/Greenplum组件或者功能天然⽀持,如In- database AI组件Madlib, json, text等 • 实时ETL/ELT性能对⽐PieCloudDB0 码力 | 31 页 | 1.43 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS完成各种业务场景的数据处理需求。但是对于开发的要求比较高,需要掌握多种 组件的不同使用方法,业务开发周期会比较久。 国外开源软件,与国产软硬件兼容性差,不符合信创趋势,也无法直接利用云资 源的弹性能力。组件太多,导致集群部署和后期运维管理很麻烦,市场上相关人 才储备量不多,技术兜底依赖于Cloudera,国内第三方公司主要是基础运维和开 发为主。 大模型数据计算系统,以云原生技术重构数据存储和计算,一份数据,多引擎数0 码力 | 29 页 | 7.46 MB | 1 年前3
共 10 条
- 1













