 Greenplum 精粹文集据,数据在爆发式增长,这些海量数据急需新的计算方式,需要一场 计算方式的革命。 传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也 难于满足数据计算性能指标,传统主机的 Scale-up 模式遇到了瓶颈, SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 的两篇著名论文 发表后引起业界的关注,一篇是关于 建立在 Share-nothing 无共享架构上,让每一颗 CPU 和 每一块磁盘 IO 都运转起来,无共享架构将这种并行处理发挥到极致。 相比一些其它传统数据仓库的 Sharedisk 架构,后者最大瓶颈就是在 IO 吞吐上,在大规模数据处理时,IO 无法及时 feed 数据给到 CPU, CPU 资源处于 wait 空转状态,无法充分利用系统资源,导致 SQL 效 率低下: 一台内置 16 块 SAS 16-11-22 下午3:38 Greenplum 精粹文集 11 最 后, 也 许 你 会 有 问 题,Greenplum 采 用 Master-slave 架 构, Master 是否会成为瓶颈?完全不用担心,Greenplum 所有的并行任务 都是在 Segment 数据节点上完成后,Master 只负责生成和优化查询 计划、派发任务、协调数据节点进行并行计算。 按照我们在用户现场观察到的,Master0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集据,数据在爆发式增长,这些海量数据急需新的计算方式,需要一场 计算方式的革命。 传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也 难于满足数据计算性能指标,传统主机的 Scale-up 模式遇到了瓶颈, SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 的两篇著名论文 发表后引起业界的关注,一篇是关于 建立在 Share-nothing 无共享架构上,让每一颗 CPU 和 每一块磁盘 IO 都运转起来,无共享架构将这种并行处理发挥到极致。 相比一些其它传统数据仓库的 Sharedisk 架构,后者最大瓶颈就是在 IO 吞吐上,在大规模数据处理时,IO 无法及时 feed 数据给到 CPU, CPU 资源处于 wait 空转状态,无法充分利用系统资源,导致 SQL 效 率低下: 一台内置 16 块 SAS 16-11-22 下午3:38 Greenplum 精粹文集 11 最 后, 也 许 你 会 有 问 题,Greenplum 采 用 Master-slave 架 构, Master 是否会成为瓶颈?完全不用担心,Greenplum 所有的并行任务 都是在 Segment 数据节点上完成后,Master 只负责生成和优化查询 计划、派发任务、协调数据节点进行并行计算。 按照我们在用户现场观察到的,Master0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum 架构概览Master-Segment 则会同时进⾏数据分区(⽔平扩展)和复制(冗余) 分区与分⽚ 在项⽬初期,我们使⽤⼀张表 T 存储数据。随着业务的增多,单表出现性能瓶颈,因⽽将 T ⽔平拆分成多个表进⾏存储,这个过程通常称为分区。紧接着,单⼀ 的数据库实例出现瓶颈,因此需要使⽤多个节点创建多个数据库实例,再按照某种规则将数据尽可能均匀地分布到各个节点上 ,这个过程通常称之为分⽚ GP 同时⽀持数据的分⽚和分区,具体的分⽚和分区规则将会0 码力 | 1 页 | 734.79 KB | 1 年前3 Greenplum 架构概览Master-Segment 则会同时进⾏数据分区(⽔平扩展)和复制(冗余) 分区与分⽚ 在项⽬初期,我们使⽤⼀张表 T 存储数据。随着业务的增多,单表出现性能瓶颈,因⽽将 T ⽔平拆分成多个表进⾏存储,这个过程通常称为分区。紧接着,单⼀ 的数据库实例出现瓶颈,因此需要使⽤多个节点创建多个数据库实例,再按照某种规则将数据尽可能均匀地分布到各个节点上 ,这个过程通常称之为分⽚ GP 同时⽀持数据的分⽚和分区,具体的分⽚和分区规则将会0 码力 | 1 页 | 734.79 KB | 1 年前3
 Greenplum Database 管理员指南 6.2.1Standby)是不能接受连接请求和 SQL 访问的。虽然只 有一个 Master,就目前已有用户的使用情况来看,即便是编者有幸参与建设的 192 台计算节点的集群,Master 的资源依然很空闲,并不会成为性能的瓶颈,同时,因为 是单 Master,可以最大限度的规避多 Master 架构的系统表频繁不一致的缺陷。 GP 是基于 PostgreSQL 发展而来,用户端可以如同访问 PostgreSQL 那样与 gpfdist 是如何配合,以实现高速数据装载的,该模式 的性能是完全线性扩展的,数据直接在 gpfdist 和 Primary 之间并行传输,数据的 重分布直接在 Primary 之间完成,整个架构没有瓶颈点。 管理与监控 对 GP 系统的管理,可以通过一系列的命令行来实现,它们都存放在$GPHOME/bin 目录下。GP 提供的命令可以实现如下的管理任务:  在多个主机上批量执行命令(gpssh) GP是一个分布式数据库软件,整体数据库的性能依赖于硬件的性能和各种硬件资 源的均衡。如果过度强调某一方面硬件资源,会造成资源的不均衡,也是对资源的浪费, 同时也是投资的浪费。对于OLAP应用来说,最大的瓶颈是磁盘性能(而不是磁盘容量), 因此,所有其他资源都应该围绕磁盘性能来均衡配置。这些资源包括CPU主频与Core 数量、内存容量、网络带宽、Raid性能等,但基本宗旨是,IO资源必须绝对富余,CPU0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1Standby)是不能接受连接请求和 SQL 访问的。虽然只 有一个 Master,就目前已有用户的使用情况来看,即便是编者有幸参与建设的 192 台计算节点的集群,Master 的资源依然很空闲,并不会成为性能的瓶颈,同时,因为 是单 Master,可以最大限度的规避多 Master 架构的系统表频繁不一致的缺陷。 GP 是基于 PostgreSQL 发展而来,用户端可以如同访问 PostgreSQL 那样与 gpfdist 是如何配合,以实现高速数据装载的,该模式 的性能是完全线性扩展的,数据直接在 gpfdist 和 Primary 之间并行传输,数据的 重分布直接在 Primary 之间完成,整个架构没有瓶颈点。 管理与监控 对 GP 系统的管理,可以通过一系列的命令行来实现,它们都存放在$GPHOME/bin 目录下。GP 提供的命令可以实现如下的管理任务:  在多个主机上批量执行命令(gpssh) GP是一个分布式数据库软件,整体数据库的性能依赖于硬件的性能和各种硬件资 源的均衡。如果过度强调某一方面硬件资源,会造成资源的不均衡,也是对资源的浪费, 同时也是投资的浪费。对于OLAP应用来说,最大的瓶颈是磁盘性能(而不是磁盘容量), 因此,所有其他资源都应该围绕磁盘性能来均衡配置。这些资源包括CPU主频与Core 数量、内存容量、网络带宽、Raid性能等,但基本宗旨是,IO资源必须绝对富余,CPU0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum 6新特性:
在线扩容工具GPexpand剖析▪ 对表执行expand之后要更新gpexpand.status_detail表的状态 ▪ Greenplum 5及之前的版本对表的更新操作是串行的,所以大量小表做expand会在 更新状态表时遇到瓶颈 ▪ Greenplum 6中因为全局死锁检测的引入可以对heap表做并行更新 改进与实现 • 扩容期间对查询的影响 – 新增节点阶段无法修改catalog – 对于正在重分布的表的读写访问均会被阻塞0 码力 | 37 页 | 1.12 MB | 1 年前3 Greenplum 6新特性:
在线扩容工具GPexpand剖析▪ 对表执行expand之后要更新gpexpand.status_detail表的状态 ▪ Greenplum 5及之前的版本对表的更新操作是串行的,所以大量小表做expand会在 更新状态表时遇到瓶颈 ▪ Greenplum 6中因为全局死锁检测的引入可以对heap表做并行更新 改进与实现 • 扩容期间对查询的影响 – 新增节点阶段无法修改catalog – 对于正在重分布的表的读写访问均会被阻塞0 码力 | 37 页 | 1.12 MB | 1 年前3
 Greenplum数据库架构分析及5.x新功能分享10月 9月 8月 用户自定义数据存储格式 14 Pivotal Confidential–Inter nal Use Only 大规模并行数据加载 • 高速数据导入和导出 – 主节点不是瓶颈 – 10+ TB/小时/Rack – 线性扩展 • 低延迟 – 加载后立刻可用 – 不需要中间存储 – 不需要额外数据处理 • 导入/导出 到&从: – 文件系统 – 任意 ETL 产品 –0 码力 | 44 页 | 8.35 MB | 1 年前3 Greenplum数据库架构分析及5.x新功能分享10月 9月 8月 用户自定义数据存储格式 14 Pivotal Confidential–Inter nal Use Only 大规模并行数据加载 • 高速数据导入和导出 – 主节点不是瓶颈 – 10+ TB/小时/Rack – 线性扩展 • 低延迟 – 加载后立刻可用 – 不需要中间存储 – 不需要额外数据处理 • 导入/导出 到&从: – 文件系统 – 任意 ETL 产品 –0 码力 | 44 页 | 8.35 MB | 1 年前3
 Greenplum 新一代数据管理和数据分析解决方案开放式系统:在通用系统和开放源软件的基础上创建 前提条件 – 硬件:基于开放式标准硬件 – 软件:Postgres和Greenplum – 体系架构:海量并行处理体系,针对商务智能/数据仓库 进行了优化,解决了所有数据流瓶颈问题 Greenplum数据引擎 全球最强大的分析数据仓库 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、0 码力 | 45 页 | 2.07 MB | 1 年前3 Greenplum 新一代数据管理和数据分析解决方案开放式系统:在通用系统和开放源软件的基础上创建 前提条件 – 硬件:基于开放式标准硬件 – 软件:Postgres和Greenplum – 体系架构:海量并行处理体系,针对商务智能/数据仓库 进行了优化,解决了所有数据流瓶颈问题 Greenplum数据引擎 全球最强大的分析数据仓库 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、0 码力 | 45 页 | 2.07 MB | 1 年前3
共 6 条
- 1













