Web开发 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

πDataCS赋能工业软件创新与实践

均已加⼊拓数派。成员毕业自 CMU、北⼤、清华和科⼤少年班等顶级学术机构，并有成员获有奥赛奖牌。郭罡（Paul Guo）合伙⼈ & C T O • 中国科技⼤学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum首席内核架构师 • Apache HAWQ PMC成员陆公瑜（Brian Lu）合伙⼈&COO • 英国约克⼤学 • 15年+产品⽣态建设和运营管理经验：全面升级Hadoop⼤数据和Greenplum数仓⾄云原⽣数据平台是⼀个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题，是⼤数据技术中的基⽯。让用户可以在不了解分布式底层细节的情况下，开发分布式程序，以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。组件很多，常见约30个，基础组件包括：Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari，其他的计算引擎、列存数据库的完成各种业务场景的数据处理需求。但是对于开发的要求比较⾼，需要掌握多种组件的不同使用⽅法，业务开发周期会比较久。国外开源软件，与国产软硬件兼容性差，不符合信创趋势，也⽆法直接利用云资源的弹性能⼒。组件太多，导致集群部署和后期运维管理很麻烦，市场上相关⼈才储备量不多，技术兜底依赖于Cloudera，国内第三⽅公司主要是基础运维和开发为主。⼤模型数据计算系统，以云原⽣技术重构数据存储和计算，⼀份数据，多引擎

0 码力 | 36 页 | 4.25 MB | 1 年前
3
兼容龙蜥的云原生大模型数据计算系统：πDataCS

我们秉承硅谷创新文化和普及数字化公益等社会责任。在公司成长的过程中，不遗余力为人才提供一个成为业内明星的平台和通道。郭罡（Paul Guo）合伙人 & C T O • 中国科技大学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum/HAWQ首席内核架构师陆公瑜（Brian Lu）合伙人 & C O O • 英国约克大学 • 15年+产品生态建设和运营管理经验 • 原Greenplum中国社区发起人私有云 Mundo元数据管理系统统一Catalog 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题，是大数据技术中的基石。让用户可以在不了解分布式底层细节的情况下，开发分布式程序，以一种可靠、高效、可伸缩的方式进行数据处理。组件很多，常见约30个，基础组件包括：Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari，其他的计算引擎、列存数据库等都需要额外的组件，应对不同的场景需要安装对应的组件和依赖。生态丰富，对结构化数据、半结构化数据以及非结构化数据都支持，可以很好的完成各种业务场景的数据处理需求。但是对于开发的要求比较高，需要掌握多种组件的不同使用方法，业务开发周期会比较久。国外开源软件，与国产软硬件兼容性差，不符合信创趋势，也无法直接利用云资源的弹性能力。组件太多，导致集群部署和后期运维管理很麻烦，市场上相关人才储

0 码力 | 29 页 | 7.46 MB | 1 年前
3
PieCloudDB：云原生分布式虚拟数仓的诞生之旅

Confidential 关于我 • 18年+基础软件⼀线经验 • 9年：Unix/Linux应⽤和内核开发、虚拟化（芯⽚KVM内核⽀持）、⾼速⽹络开发（NIC驱动、IB、DPDK、OVS offload）等. • 2年：分布式系统（存储和缓存）开发、云计算平台架构. • 7年+：数据库内核开发 (HAWQ、PG、Greenplum、PieCloudDb). • 现在负责拓数派的整个研发管理. reserved. OpenPie Confidential PieCloudDB内核的下⼀步 • 优化器 • 功能更全、OLAP更友好、更加贴近云原⽣需求. • 计算引擎 • V1（正在开发中）: SIMD执⾏器和各种计算优化. 甚⾄依赖于云成本. • V2: Pipeline引擎. • V3: 计算引擎资源调度隔离 - 类似⼀个计算操作系统.

0 码力 | 24 页 | 2.01 MB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

毕业于中国科技⼤学，AI相关专业 • 毕业 1 年后到现在⼀直从事底层基础软件开发，10多年开发经验 • 领域涉及到： • 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化（芯⽚KVM⽀持实现）和云计算架构、⾼速⺴络开发（内核和应⽤层如DPDK） • 分布式系统（SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发一个eMPP 云原生分布式SQL数据库一个云原生实时大数据平台基座

0 码力 | 31 页 | 1.43 MB | 1 年前
3
大模型时代下向量数据库的设计与应用

在加入拓数派前曾就职于开源大数据平台Greenplum团队，担任外部数据源访问框架，对象存储访问扩展，ETL工具等产品模块的研发，并曾参与PostgreSQL多个版本的代码贡献，拥有丰富的存储模块核心开发和性能优化等实践经验。邱培峰拓数派向量数据库负责人拓数派：大模型数据计算系统先行者 • 拓数派（ OpenPie）是立足于国内的基础数据计算领域高科技创新机构； • 拥有强大的数对向量数据建立索引，可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发，为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发，为其开发向量搜索及索引算法 PieCloudVector • 基于postgres打造的数据库内核 • 单机或分布式部署 • 支持完整的ACID • SQL进行向量搜索 • 支持向量标量混合查询 PieCloudVector • 兼容国产硬件和操作系统 PieCloudVector • 通过信通院测试案例分析 - 东吴证券秀财gpt • 采用自研大模型东吴秀财GPT + LangChain开发框架 + PieCloudVector向量数据库构建了AIGC应用平台，接入了交易应用的结构化数据和非结构化数据，其中非结构化数据主要是文本类数据下一步展望 • GraphRAG 欢迎关注我们！

0 码力 | 28 页 | 1.69 MB | 1 年前
3
PieCloudDB Database 产品白皮书

时刻或需要紧急得到某个法弹性、快速地分析业务数据，错失了充分挖掘数据 Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓产品白皮书传统数据仓库价格高昂的软硬件、开发运维人员的高晶薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产环境资源利用率，无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长，面临数据库的扩容和升级时，由于传统数据很多元数据会在不同集群间存在不一致的版本信息。此外，如果企业需要做跨集群的访问，往往非常困难，会造成数据孤岛的存在。运维成本对于传统 MPP 数仓，企业往往会需要配备运维人力，且对运维、开发人员要求高，需要相关人员掌握复杂的技术栈，技术的更新迁代迅速，相关人员需保持积极的知识更新意识。根关人才市场较小，人才芽乏。高昂的学习成本造成用户使用过程中性能差、故障率高、故障修复时间长等问题。模块，让用户可以访问 HDFS、MySQL 、Oracle等外部数据。PieCloudDB 支持JS5ON，XML，Parquet以及二进制数据等格式，同时，PieCloudDB 既支持用户利用过程语言自行开发模块进行数据分析也原生兼容开源机器学习库Apache MADlib，从而可以原生实现一些高级机器学习功能。该拓展提供数学、统计学以及机器学习方法，包括但不限于线性回归、关联规则、贝叶斯分类、决策树和随机森林等算法支持。同时

0 码力 | 17 页 | 2.68 MB | 1 年前
3
云原生虚拟数仓PieCloudDB Database产品白皮书

报表结果时，传统数据仓库无法及时扩资源，导致大数据系统无法弹性、快速地分析业务数据，错失了充分挖掘数据价值所带来的商业机会。传统数据仓库架构成本高昂传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产环境资源利用率，无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长，面临数据库的扩容和升级时，由于传统会在不同集群间存在不一致的版本信息。此外，如果企业需要做跨集群的访问，往往非常困难，会造成数据孤岛的存在。运维成本对于传统 MPP 数仓，企业往往会需要配备运维人力，且对运维、开发人员要求高，需要相关人员掌握复杂的技术栈，技术的更新迭代迅速，相关人员需保持积极的知识更新意识。相关人才市场较小，人才匮乏。高昂的学习成本造成用户使用过程中性能差、故障率高、故障修复时间长等问题。（FDW）模块，让用户可以访问 HDFS、MySQL 、Oracle等外部数据。PieCloudDB 支持 JSON，XML， Parquet以及二进制数据等格式，同时，PieCloudDB 既支持用户利用过程语言自行开发模块进行数据分析也原生兼容开源机器学习库 Apache MADlib，从而可以原生实现一些高级机器学习功能。该拓展提供数学、统计学以及机器学习方法，包括但不限于线性回归、关联规则、贝叶斯分类、决策树和随机森林等算法支持。同时

0 码力 | 17 页 | 2.02 MB | 1 年前
3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现

@2022 OpenPie. All rights reserved. OpenPie Confidential • 使用数据湖为基础进行数据分析需要多个组件进行集成部署，多个组件的配合需要大量的开发工作 • 许多缺乏 ANSI SQL 支持，需要专门的技术技能 • 专用引擎/工具（例如图形数据库）通常难以与记录系统集成，限制了分析和创新的操作化 NoSQL和数据湖为基础的基础设施需要的分析工具不容易集成和部署 Confidential • 在 AP 场景下，像使用 postgres 一样使用 PieCloudDB • 只为已经发生的计算和存储付费 • 按需启动的关闭多个不同大小的集群，以适应不同类型的任务 • 取得性能和开发效率的高度平衡 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 云原生架构 @2022 OpenPie.

0 码力 | 43 页 | 1.14 MB | 1 年前
3
PieCloudDB Database V2.1 版本说明

• 外部数据源的查询（实验性功能）： PieCloudDB 支持 foreign-data wrapper 模块，使用户可以访问包括但不限于 HDFS、MySQL 等数据源，同时支持用户自行开发模块来访问新的存储数据源。管控平台 • 用户权限优化：通过更加清晰的 UI 设计，为用户提供一体化的权限管理 • 注册选项增加：增加了手机注册

0 码力 | 3 页 | 257.15 KB | 1 年前
3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

INSERT 模式，支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式，步骤1 Ø PieCloudDB Foreign Table，postgres扩展，需要为数据源单独开发 Ø 控制节点上读取数据源信息，决定是否拆分，生成任务信息 Ø 计算节点上根据任务信息读取数据源，返回raw数据和元信息 CREATE FOREIGN TABLE foreign_table(meta

0 码力 | 29 页 | 5.24 MB | 1 年前
3

共 13 条前往

页

分类

语言

格式