Greenplum 6: 混合负载的理想数据平台Greenplum 6: 混合负载的理想数据平台 高小明 全球领先的开源MPP大数据平台 可扩展性 ACID事务 VS 分布式 简单易用 VS 结构化 半结构非结构化 VS 事务型 分析型 VS MPP - massively parallel processing - 大规模并行处理 master standby primary n … Transition 函数 操作一小批数据并更新 模型状态 1 Merge 函数 2 Final函数 3 Segment 1 19 Madlib: PageRank性能 Greenplum集群: ● 1 master ● 4*6 segment 50亿条链接 (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log TPC-B基准测试:环境 基于谷歌云平台(Google Cloud Platform,简称GCP),为5个虚拟主机的集群,包含一 个master主机和四个segment主机,master和segment虚拟主机的配置信息如下 master segment 虚拟机类型 n1-standard-16 n1-standard-8 CPU核数 16 8 内存大小(GB) 60 30 CPU平台 Intel Haswell0 码力 | 52 页 | 4.48 MB | 1 年前3
基于 Greenplum 打造SaaS化电商服务平台基于GP打造SaaS化电商服务平台 聚水潭 秃鹰 赵坚密 2019.08.10 聚水潭成立于2014年1月,创始人兼CEO骆海东拥有超过二十年传统 及电商ERP的研发和实施部署经验,公司核心管理团队来自于阿里巴 巴、亚马逊、中国平安和麦包包等知名公司。 聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务, 快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经 发展成为以SaaS 发展成为以SaaS ERP为核心,集多种商家服务为一体的SaaS协同平台, 为全国近20万家电商企业提供全面的信息化解决方案。 经过5年多的发展,公司员工从2014年成立之初的9人增加到现在 1200多人。聚水潭已在全国设立了40多个线下服务分支机构,服务范 围覆盖超过268个城市,为客户提供及时、周到和专业的服务。 来自阿里巴巴旗下商家服务市场的最新数据显示,聚水潭已是企业 ERP类目中使用商家 3HDB4PG 2017.1报表全面迁移至GP 2017.6集群拆分 2018.9全面切换HDB4PG 2018.6ADB储备、2019.7上线 HDB4PG •数据压缩 •弹性扩容 •成熟稳定 •性能良好 •阿里云支持 THANKS 谢 谢 聆 听 2018.06.26 by 花名 www.jushuitan.com0 码力 | 7 页 | 547.94 KB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台Greenplum 5: 新一代数据平台 开源、支持多种云的高级分析数据平台 作者:Keaton Adams、 Dan Baskette、 Cesar Rojas pivotal.io/cn 白皮书 2 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 目录 关于本白皮书 ..... .......................................................................3 Pivotal Greenplum 5:新一代数据平台 .........................................................................................3 以开源创新替代专有分析环境 ............................................................................... 4 支持多种云不受限于基础架构的数据平台 ..................................................................................................0 码力 | 9 页 | 690.33 KB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 ...................................................................................... 6 欧拉开源操作系统平台架构 ................................................................................................ ......................................................................... 8 Greenplum:新一代 HTAP 数据平台 ..................................................................................................0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum机器学习⼯具集和案例Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: 新一代开源大数据平台 2017.thegiac.com Greenplum 集群 2017.thegiac.com Polymorphic Storage Command Center SQL Compatibility (Hyper-Q) 2017.thegiac.com Greenplum ⼤大数据平台 • 一次打包,到处运行:裸机、私有云、公有云 • 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 精粹文集年的由慢到快的发展,累积了大量信息和数 据,数据在爆发式增长,这些海量数据急需新的计算方式,需要一场 计算方式的革命。 传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也 难于满足数据计算性能指标,传统主机的 Scale-up 模式遇到了瓶颈, SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google ——greenplum,因此而得名)召集了十几位业界大咖(据 说来自 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum OLAP window 函数),还可以用多种语言来写存储过程,对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远,很多分 析功能都不支持,而 Greenplum 作为 MPP 数据分析平台,这些功 能都是必不可少的。 2) Mysql 查询优化器对于子查询、复制查询如多表关联、外关联的支 持等较弱,特别是在关联时对于三大 join 技术:hash join、merge join、nestloop0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1提供一些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 6 版本都带来了极大 的性能和稳定性的提升。 声明 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部分内容都经过编者重新考量和实测验证,有些观点与官方手册有 出入,仅代表编 ....................................................................................... - 229 - 查询性能................................................................................................... ................................................................................... - 266 - Raid 卡性能 ..................................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 介绍Greenplum 介绍 Greenplum 是全球领先的开源大数据平台,是能够提供包含实时处理、弹性扩容、混合负载、云 原生和集成数据分析等强大功能的大数据引擎。 著名分析机构 Gartner 2019 年报告中,在经典数据分析领域 Greenplum 全球排名第三,实时分 析领域全球排名并列第四。Greenplum 是两个领域中排名前十的产品中的唯一一款开源产品。 还兼容 SQL 标准,具备强大、 高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的混合负载,从而帮助客户真正打通业务-数据-洞见-业务的闭环。 目前,Greenplum 已经为国内外各行各业客户所广泛使用 Greenplum 大数据平台的优势 ● 一次打包到处运行的平台:部署灵活,不受限于硬件环境和平台,无论裸机、私有云、公 有云均可部署。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定, 从而允许客户灵活选择最适合的方案,降低未来的迁移代价,而开发、运维人员无需要学 习新的数据库处理技术,人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台:支持各种数据源,包括0 码力 | 3 页 | 220.42 KB | 1 年前3
Pivotal Greenplum 最佳实践分享1000000000 kernel.sem = 250 512000 100 2048 Redhat 6.2以后,内核增加了hugepage大页内存管理,关闭hugepage可以提高混合负载管理性能 设置办法:修改local脚本 For SUSE /etc/init.d/boot.local For RHLE /etc/rc.d/rc.local 追加内容: 对于并发请求高、面向于复杂的灵活查询的系 统,建议每个Segment配置4个或以下Instance, 这样来保证每个Instance所需资源,保证系统 系统运行稳定性,例如,减少OOM发生的概率; • 对于以批处理、串行工作为主的系统,可以配 置到8个Instance,这样可以尽可能的发挥每个 CPU的处理性能。 Master query plan Client Segments Segments Segments 圾空间的回收方 式: 1)Vacuum 2)Vacuum full 3)REORGANIZE • 不进行垃圾空间回收的影响 o 垃圾空间浪费存储空间 o 垃圾空间影响查询性能 注:delete all用truncate代替,truncate无需回收垃圾空间 垃圾空间回收 Vacuum:标记垃圾空间为可再利用 Vacuum0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum介绍可以到上万台。 性能 在100台以下时,性能 比hadoop好。 单个SQL可以做到秒级 别 集群规模越大,总体性 能越好。 单个SQL最少也有数十 秒。 SQL的支持程度 支持完善,几乎所有 PostgreSQL支持的SQL, gp都支持。 支持有限的SQL,查询 支持子查询,但不支持 窗口函数。大部分dml都 不支持,只支持append。 稳定性 有较多的bug。 plum的 数据库有一个额外的操作类型,称为的motion。 motion操作就是把查询处理过程中涉及到的其它节点 上的数据在各个节点中做移动。 GP的查询处理 为了提高执行的性能,Greenplum把执行计划进行切片 (slice)。 例如: SELECT customer, amount FROM sales JOIN customer USING (cust_id)0 码力 | 38 页 | 655.38 KB | 1 年前3
共 23 条
- 1
- 2
- 3













