云时代下多数据计算引擎的设计与实现rights reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代下多数据计算引擎的设计与实现 郭罡 CTO 拓数派(OpenPie) @2024 OpenPie. All rights reserved. OpenPie Confidential 关 于 拓 数 派 核心团队来自于各大厂名校,有丰富的数据库(Greenplum,DB2,ClickHouse等)研发 和产业经验. • 产品 πDataCS:多计算引擎,包括自研分布式数据库PieCloudDB,自研分布式向量数据库 等. • PieCloudDB 存储底座是各计算引擎的载体. • 已落地或者正在落地:IoT、金融、新能源、医疗等行业. @2024 OpenPie. All rights reserved reserved. OpenPie Confidential 云时代 数据计算 多数据模态支持 广泛的生态支持 “一份数据,多引擎计算”的述求 让数据流动起来 @2024 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 简介 一款云原生分布式 分析型数据库 • 元数据、用户数据、计算完全分离. • 用户数据(code0 码力 | 15 页 | 3.09 MB | 1 年前3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎全球敏捷运维峰会 广州站 基于ClickHouse+StarRocks 构建支撑千亿级数据量的高可用查询引擎 演讲人:蔡岳毅 全球敏捷运维峰会 广州站 1. 为什么选择ClickHouse/StarRocks; 2. ClickHouse/StarRocks的高可用架构; 3. 如何合理的应用ClickHouse的优点,StarRocks 如何来补充ClickHouse 的短板;0 码力 | 15 页 | 1.33 MB | 1 年前3
πDataCS赋能工业软件创新与实践企业简介 l OpenPie是立⾜于国内的基础数据计算领域⾼科技创新机构; l 拥有强⼤的数据库内核研发团队、数据科学团队和数字化 转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎⽅ 向进⾏创新,全面拥抱AI技术趋势。 企业⽂化 使命:数据计算,只为新发现 愿景:成为立⾜中国基础数据计算领域的全球顶级⾼科技创新机构 价值观:以⼈为本、开放创新、拥抱变化、诚信正直 拓数派中国总部与全球分支机构 云原⽣数仓PieCloudDB 社区版与商业版正式发布 极速进⼊成长期 Day-1 2023 引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会 重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原⽣虚拟数仓 拓数派基于阿里云构建公共云数据仓库服务 正式上线 6月 上榜 EqualOcean 2022年源自中国值 得关注的新锐全球化科技品牌 与东吴证券在数仓虚拟化和信创领域展开试点合作 业领袖” 4月 冯雷被评为杭州市所有的独角兽和准独角兽企 业中唯⼀“年度创业⼈物” 打造⼤模型时代 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派⼊选中国信通院“铸基计划”「⾼质量数字化 转型产品及服务全景图」 拓数派再次携WAIC创建智能驾驶科技分会 杭州萧⼭区政府“⼀事⼀议”支持政策获0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB Database 产品白皮书 Reserved, Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 piecloudDB,云原生虚拟数仓 PieCloudDB 产品概述 PieCloudDB 产品架构 PieCloudDB 产品特性 PieCloudDB 产品核心技术 PieCloudDB8 相关人员掌握复杂的技术 栈,技术的更新迁代迅速,相关人员需保持积极的知识更新意识。根关人才市场较小,人才芽乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将应用向云上迁移,而越来越多的数据也流向云上。公有云带来了众多优势: PieCloudDB,运用全新 eMPP (elastic Massive Parallel Processing) 分布式技术,旨在为企业提供包含实时处理、 移级扩缩容、弹性计算、集成数据分析等强大功能的云上数据存储和计算引擎,助力企业实现数据价值最大化。 pieCloudDB 为企业构建坚如般石的虚拟数仓,以云资源最优化配置实现无限数据计算可能,基于新一代数仓虚拟 化,提供云数仓智能化解决方案,助力企业建立以数据资产为核心的竞争整垒。0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书OpenPie All Right Reserved . 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 PieCloudDB,云原生虚拟数仓 PieCloudDB 产品概述 PieCloudDB 产品架构 PieCloudDB 产品特性 握复杂的技术 栈,技术的更新迭代迅速,相关人员需保持积极的知识更新意识。相关人才市场较小,人才匮乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 5 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将应用向云上迁移,而越来越多的数据也流向云上。公有云带来了众多优势: 整体架构分为三个层次,包括基础设施层、数据处理层及数据应用层。详细阐述如下: 基础设施层 基础设施层为 PieCloudDB 提供计算资源、存储资源和网络资源,PieCloudDB 支持部署在物理服务器、虚拟机以及容 器中,同时也提供 PieCloudDB 公有云 SaaS 服务。 数据处理层 PieCloudDB 核心服务层,提供了并行数据处理能力,拥有元数据节点、计算节点、存储节点以及云原生管控平台节0 码力 | 17 页 | 2.02 MB | 1 年前3
TiDB 开源分布式关系型数据库15荣誉1 07 16 代表用户 08 第二章 TiDB 开源分布式关系型数据库 2.1 产品简介。 2.2 TiDB架构图.ee 10 23 核必特性 11 2.4 TiFlash 高性能列式分析引擎 12 25 TiDB企业 12 2.6 TiDB 社区版与企业版差异 13 第三章 TiDB 生态工具 3.1 数据迁移 . 16 5 分布式数据库工业实现的顶级论文 *。 ”发明专利:一种键值存储系统沙《一种基于共识算法的 HTAP 数据库》 *。 ”计算机软件著作权登记证书: 分布式数据库 TiDB 企业版软件.Tiflash 列式存储引擎软件 一 PingCAP.COM 06 一 1.3 发展历程 2015年4月 获得经续中国领报的天使欠投次 2015年12月 TiDBAIpha 2020 年度亚洲银行家大奖 -直 机 关于 PingCAP 2015年9月 Tipe在GhHub 上开源 2016年4月 独立研发的基于 Google Spanner 的下一代分布式存鱼 引擎Tiky 开乔 2017年6月 获得华创资本领抽的 1500 万美元的日轮融次 18年4月 -TiDB 2.0 GA版本发布 生-TiSpark 1.0 GA版本发布 2018年8月 由-TiDB0 码力 | 58 页 | 9.51 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优化计算瓶颈、充分利用和 计算机和经济学,获得物理经济学双学位。(北大报道)研究生就读卡内基梅隆大学。(InfoQ报道) • 归国前就职于美国Oracle公司数据库服务器技术部门,是Oracle Cloud Control的分布式调动引擎的 主要贡献者之一。 • 因为参与Pivotal的拆分创建、C轮融资和IPO成功,以及主导的Greenplum产品在全球范围的开源影 响力,被《数字商业周刊》选为2019年度封面人物。(《数商周刊》报道) 云原生数仓PieCloudDB 社区版与商业版正式发布 极速进入成长期 Day-1 2023引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会 重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原生虚拟数仓 拓数派基于阿里云构建公共云数据仓库服务 正式上线 6月 上榜 EqualOcean 2022年源自中国值 得关注的新锐全球化科技品牌 与东吴证券在数仓虚拟化和信创领域展开试点合作0 码力 | 29 页 | 7.46 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案1 新一代数据管理和数据分析 解决方案 关于Greenplum公司 • Greenplum是一家数据库软件公司,在数据处理和 BI/DW领域,提供容量 最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥,加利福尼亚州,美国,成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站: www.greenplum greenplum.com www.greenplum-china.com Greenplum:简介 Greenplum数据引擎软件为新一代数 据仓库所需的大规模数据和复杂查询功 能所设计 3 推动数据依赖型企业的发展 全球各地的一些Greenplum客户 4 亚太地区 欧洲、中东、非洲 北美 中国的客户 5 金融 交通 互联网 其它 Teradata Netezza Oracle 2008年亚洲南 部地区成就奖 “可能会成为数据仓库和数据 库管理系统市场的突破力量” Gartner的Donald Feinberg 17 通过Greenplum超级数据处 理引擎增强竞争优势 Greenplum数据引擎:内容和方式 价值主张 – 性价比: 性能可达到传统方案(Oracle、Teradata)的 10到100倍, 而成本只是其一小部分 – 可伸缩性:从较低的万亿字节扩展到千万亿字节0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 精粹文集分布式存储和分布式计算理论刚刚被提出来,Google 的两篇著名论文 发表后引起业界的关注,一篇是关于 GFS 分布式文件系统,另外一篇 是关于 MapReduce 并行计算框架的理论,分布式计算模式在互联网 行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 所谓术业有专攻,就像制造跑车的不会亲自生产车轮一样,我们只 要专注在分布式技术中最核心的并行处理技术上面,协调我们下面 的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像 车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。0 码力 | 64 页 | 2.73 MB | 1 年前3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰一切以用户价值为依归 业务应用实践 iData 14 2 一切以用户价值为依归 15 业务应用实践 iData 2 一切以用户价值为依归 l 游戏数据分析的业务背景 l iData 数据分析引擎TGMars l 为什么选用ClickHouse l 平台在ClickHouse上的使用 16 业务应用实践 iData 2 腾讯游戏 数据化驱动服务 场景视图: TGlog 服务端采集 iData 2 新大数据分析引擎2.0 业界传统 大数据分析 引擎 大数据分析引擎&存储 Analytical Engine & Database 大数据仓库 Hadoop Data Lake 计算引擎 MR & Spark Data Warehouse OLTP Big Data Analysis 数据报表 多 维 聚 合 iData大数据分析引擎 TGMars TGSpark Lake 计算引擎 MR & Spark Data Warehouse OLTP Big Data Analysis 多 维 聚 合 iData New 超融合OLAP 大数据分析 引擎TGMars 多 维 提 取 关 联 分 析 画 像 分 析 数据报表 用户分群 用户特征 特征关联 一切以用户价值为依归 18 业务应用实践 iData 2 新大数据分析引擎2.0 app-10 码力 | 26 页 | 3.58 MB | 1 年前3
共 86 条
- 1
- 2
- 3
- 4
- 5
- 6
- 9













