瓶颈 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 精粹文集

据，数据在爆发式增长，这些海量数据急需新的计算方式，需要一场计算方式的革命。传统的主机计算模式在海量数据面前，除了造价昂贵外，在技术上也难于满足数据计算性能指标，传统主机的 Scale-up 模式遇到了瓶颈， SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于建立在 Share-nothing 无共享架构上，让每一颗 CPU 和每一块磁盘 IO 都运转起来，无共享架构将这种并行处理发挥到极致。相比一些其它传统数据仓库的 Sharedisk 架构，后者最大瓶颈就是在 IO 吞吐上，在大规模数据处理时，IO 无法及时 feed 数据给到 CPU， CPU 资源处于 wait 空转状态，无法充分利用系统资源，导致 SQL 效率低下：一台内置 16 块 SAS 16-11-22 下午3:38 Greenplum 精粹文集 11 最后，也许你会有问题，Greenplum 采用 Master-slave 架构， Master 是否会成为瓶颈？完全不用担心，Greenplum 所有的并行任务都是在 Segment 数据节点上完成后，Master 只负责生成和优化查询计划、派发任务、协调数据节点进行并行计算。按照我们在用户现场观察到的，Master

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum 架构概览

Master-Segment 则会同时进⾏数据分区（⽔平扩展）和复制（冗余）分区与分⽚在项⽬初期，我们使⽤⼀张表 T 存储数据。随着业务的增多，单表出现性能瓶颈，因⽽将 T ⽔平拆分成多个表进⾏存储，这个过程通常称为分区。紧接着，单⼀的数据库实例出现瓶颈，因此需要使⽤多个节点创建多个数据库实例，再按照某种规则将数据尽可能均匀地分布到各个节点上，这个过程通常称之为分⽚ GP 同时⽀持数据的分⽚和分区，具体的分⽚和分区规则将会

0 码力 | 1 页 | 734.79 KB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

Standby)是不能接受连接请求和 SQL 访问的。虽然只有一个 Master，就目前已有用户的使用情况来看，即便是编者有幸参与建设的 192 台计算节点的集群，Master 的资源依然很空闲，并不会成为性能的瓶颈，同时，因为是单 Master，可以最大限度的规避多 Master 架构的系统表频繁不一致的缺陷。 GP 是基于 PostgreSQL 发展而来，用户端可以如同访问 PostgreSQL 那样与 gpfdist 是如何配合，以实现高速数据装载的，该模式的性能是完全线性扩展的，数据直接在 gpfdist 和 Primary 之间并行传输，数据的重分布直接在 Primary 之间完成，整个架构没有瓶颈点。管理与监控对 GP 系统的管理，可以通过一系列的命令行来实现，它们都存放在$GPHOME/bin 目录下。GP 提供的命令可以实现如下的管理任务：  在多个主机上批量执行命令(gpssh) GP是一个分布式数据库软件，整体数据库的性能依赖于硬件的性能和各种硬件资源的均衡。如果过度强调某一方面硬件资源，会造成资源的不均衡，也是对资源的浪费，同时也是投资的浪费。对于OLAP应用来说，最大的瓶颈是磁盘性能(而不是磁盘容量)，因此，所有其他资源都应该围绕磁盘性能来均衡配置。这些资源包括CPU主频与Core 数量、内存容量、网络带宽、Raid性能等，但基本宗旨是，IO资源必须绝对富余，CPU

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 6新特性: 在线扩容工具GPexpand剖析

▪ 对表执行expand之后要更新gpexpand.status_detail表的状态 ▪ Greenplum 5及之前的版本对表的更新操作是串行的，所以大量小表做expand会在更新状态表时遇到瓶颈 ▪ Greenplum 6中因为全局死锁检测的引入可以对heap表做并行更新改进与实现 • 扩容期间对查询的影响 – 新增节点阶段无法修改catalog – 对于正在重分布的表的读写访问均会被阻塞

0 码力 | 37 页 | 1.12 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

10月 9月 8月用户自定义数据存储格式 14 Pivotal Confidential–Inter nal Use Only 大规模并行数据加载 • 高速数据导入和导出 – 主节点不是瓶颈 – 10+ TB/小时/Rack – 线性扩展 • 低延迟 – 加载后立刻可用 – 不需要中间存储 – 不需要额外数据处理 • 导入/导出到&从: – 文件系统 – 任意 ETL 产品 –

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

开放式系统：在通用系统和开放源软件的基础上创建前提条件 – 硬件：基于开放式标准硬件 – 软件：Postgres和Greenplum – 体系架构：海量并行处理体系，针对商务智能/数据仓库进行了优化，解决了所有数据流瓶颈问题 Greenplum数据引擎全球最强大的分析数据仓库海量并行查询 • 可以比以往更快地获取查询结果 • 在数据增长的同时确保高性能分析统一的分析处理功能 • 为数据仓库、市场、

0 码力 | 45 页 | 2.07 MB | 1 年前
3

共 6 条前往

页

分类

语言

格式

Greenplum 精粹文集

Greenplum 架构概览

Greenplum Database 管理员指南 6.2.1

Greenplum 6新特性: 在线扩容工具GPexpand剖析

Greenplum数据库架构分析及5.x新功能分享

Greenplum 新一代数据管理和数据分析解决方案