Greenplum 精粹文集能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 的两篇著名论文 发表后引起业界的关注,一篇是关于 GFS 分布式文件系统,另外一篇 是关于 MapReduce 并行计算框架的理论,分布式计算模式在互联网 行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 来 了, 在 X86 集 群 上 实 现 自 动 的 并 行 计 算, 无 论 是 后 来 的 MapReduce 计算框架还是 MPP(海量并行处理)计算框架,最终还 是需要软件来实现,Greenplum 正是在这一背景下产生的,借助于分 布式计算思想,Greenplum 实现了基于数据库的分布式数据存储和并 行计算(GoogleMapReduce Greenplum MPP 与 Hadoop MPP 和 Hadoop 都是为了解决大规模数据的并行计算而出现的技术, 两种技术的相似点在于: ·分布式存储数据在多个节点服务器上 ·采用分布式并行计算框架 ·支持横向扩展来提高整体的计算能力和存储容量 ·都支持 X86 开放集群架构 但两种技术在数据存储和计算方法上,也存在很多显而易见的差异: ·MPP 按照关系数据库行列表方式存储数据(有模式),Hadoop0 码力 | 64 页 | 2.73 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum双平面混合集群 0S 高效一键式安装,百节点部署时间<15min。 3. 探索场景创新 边缘计算:发布面向边缘计算场景的版本 openEuler21.09Edae.集成 KubeEdae+边云协同框架,具备边云应用统一管 理和发放等基础能力。 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 开源社区,并由 Greenplum 中文社区开发者在欧拉开源操作系统上完善直至形成在 ARM 平台上可用的版本。 3. ARM 平台测试问题的修复 原本 Greenplum 开源社区配套的测试框架以及测试用例都是基于 X86 平台来进行适配的,对于新的硬件架构,在浮 点数、底层汇编指令都有所不同,此次移植同样对这类问题进行了修复,保证欧拉开源操作系统在多硬件平台构建 RPM 软件包时行为一致,并且通过了0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台Dynamic Partition Elimination 03 动态分区裁剪 公共表达式的下推 高效处理相关子查询 超过8年的投资,多位博士的长期贡献 基于Cascades / Volcano框架, Goetz Graefe 优化分布式大数据系统中特别复杂的查询 18 Madlib: 迭代并行模型训练 Master model = init(…) WHILE model not converged0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案规模数据仓库和分析领域 • 世界级的行业团队进行高性能计算和数据库系统的 前沿开发工作 • 为全球很多最大规模的数据仓库提供提供推动力 • 最先将SQL和Map-Reduce的功能整合到统一的数 据处理框架中 • 可以帮助企业采集所有数据,并在竞争中获得出色 的洞察力 41 Parallel Dataflow Engine • General purpose parallel-dataflow0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1结果。同时,最佳实践,不仅仅 是对过去的现象和经验的总结归纳,而是经过无数次的检验和再总结的结论,综合多方 面的技术和知识,得到的系统性结论。 这部分内容,编者还是第一次开始编写,所以,主体框架会以官方文档为基础,但 是,可以预见到的是,这个章节,将是编者的见解与官方文档差异较多的章节。 本章节,不会像其他章节那样,介绍GP数据库的功能细节和如何操作,而是重点 在讲述,如何做才是最好的选择,也就是所谓的最佳实践。0 码力 | 416 页 | 6.08 MB | 1 年前3
共 5 条
- 1













