存储机制 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 精粹文集

，在技术上也难于满足数据计算性能指标，传统主机的 Scale-up 模式遇到了瓶颈， SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于 GFS 分布式文件系统，另外一篇是关于 MapReduce 并行计算框架的理论，分布式计算模式在互联网 MPP（海量并行处理）计算框架，最终还是需要软件来实现，Greenplum 正是在这一背景下产生的，借助于分布式计算思想，Greenplum 实现了基于数据库的分布式数据存储和并行计算（GoogleMapReduce 实现的是基于文件的分布式数据存储和计算，我们会在后面比较这两种方法的优劣性）。话说当年 Greenplum（当时还是一个 Startup 公司，创始人家门口有一棵青梅 ——green PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法支持，除对 ANSI SQL 完全支持外，还支持比如分析函数（SQL2003 OLAP window 函数），还可以用多种语言来写存储过程，对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远，很多分析功能都不支持，而 Greenplum 作为 MPP 数据分析平台，这些功能都是必不可少的。 2) Mysql

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

..................................................................................... - 21 - 数据是如何存储的 ................................................................................................. ..................................................................................... - 89 - 使用表空间存储 DB 对象 ......................................................................................... - 90 ...................................................................................... - 96 - 选择表的存储模式 ................................................................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

2013 Pivotal. All rights reserved. Greenplum 简介 4 Pivotal Confidential–Inter nal Use Only GPDB：为大数据存储、计算、挖掘而设计标准 SQL 数据库：ANSI SQL 2008 标准，OLAP，JDBC/ODBC 支持ACID、分布式事务分布式数据库：线性扩展，支持上百物理节点企业级数据库：全球大客户超过多级容错机制无共享大规模并行处理先进的查询优化器多态存储系统客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构并行数据流引擎高速软数据交换机制 MPP Scatter/Gather 流处理在线系统扩展任务管理服务加载 & 数据联邦高速数据加载近实时数据加载任意系统数据访问存储 & 数据访问混合存储引擎（行存&列存） Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D 10 Pivotal Confidential–Inter nal Use Only 多级分区存储 • 哈希Distribution：数据均匀的分布到各个数据节点 • 范围分区：数据节点内部，根据多种规则分区，降低扫描量数据集 Segment 1A Segment 1C Segment

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum on Kubernetes 容器化MPP数据库

云数据库市场巨大 ● 云数据库增速巨大 ● DBasS的需求 ● 跨云的需求云数据库实现方案云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云云数据库实现方案 ● 全新数据库 ○ Snowflake Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Apache Spark ○ CockroachDB ○ Apache HAWQ 云数据库存储方案 ● 块存储 ○ 文件系统接口 ● 对象存储 ○ 成本低 ○ 扩展性强 ○ 访问延迟高 Greenplum on Kubernetes Network Interconnect Standby Host Master Primary Segment部署策略 ○ Mirror Segment部署策略 ● 容器化Greenplum运维管理 ○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联

0 码力 | 33 页 | 1.93 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

垃圾空间回收 • GPDB采用MVCC机制，UPDATE 或 DELETE并非物理删除，而只是对无效记录做标记； • Update/delete操作后，数据库不会自动释放这些空间，这些垃圾空间的回收方式： 1）Vacuum 2）Vacuum full 3）REORGANIZE • 不进行垃圾空间回收的影响 o 垃圾空间浪费存储空间 o 垃圾空间影响查询性能对象不要超过10 0000个  最佳实践是出于对系统性能和稳定性因素建议对pg_class 所维护的对象数进行约束  减少对象数的方法： – 提高分区粒度 – 避免大范围使用列存储  pg_class对象数如果不进行约束，可能会产生以下问题： – gprecoverseg –F效率低，数据库实例修复如果增量同步失败，我们一般会建议使用gprecoverseg –F进行全量同物理模型对于系统性能有很大影响，因此需要我们特别关注。以下来自于在某大型银行的使用经验：行存储和列存储： • 避免过多使用列存储的原因是防止小档数过多。 • 列存储能够提升查询性能，对于更新和全字段类操作性能反而会下降 • 对于少数频繁查询的宽表，例如交易表、帐户表、客户表等采用列存储，其它表采用行存储数据压缩： • 在金融业，行压缩的数据压缩比在1:6左右，一般采用zlib5级压缩

0 码力 | 41 页 | 1.42 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

rk、Ka,a • 各种数据格式：结构化、半结构化（JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展：PL/X、Extension、PXF、外部表机制 • 完善的标准支持：SQL、JDBC、ODBC • 集成数据平台：BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码，持续大力投入 • 企业级稳定性，成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X：各种语言实现自定义函数（存储过程） • MADLib: 数据挖掘、统计分析、图（Graph）等算法 • GPText：文本检索和分析 • GeoSpatial：地理信息数据分析 • Image: 图像数据分析 MADlib 特性 2017.thegiac.com 客户端数据库服务器器 Master Segment 1 Segment 2 Segment n … SQL 存储过程结果集 String 聚集 psql … 执⾏行行流程 2017.thegiac.com External Sources Load, streaming,

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum备份恢复浅析

生的post_data文件包含indexes, triggers, primary key constraints等数据库对象，master产生的全局对象包含角色和表空间等 2. Regular files 包括各类辅助文件，例如存储着create database语句的文件，备份状态报告文件等其中最核心的每个segment的数据文件，命名格式如下： xxx_gp_dump_0_2_20170206160253.gz segment的数据一致性但是，各个segment的数据设置隔离级别的动作存在时间差，而master仍然接受新的事务，从而导致各个segment上的数据不一致。我们可以通过实现barrier机制来避免这种情况： 1. 使数据库只读 2. 等待所有的事务全部提交，开始备份 3. 给pg_class加锁，等待每个segment备份时设置隔离级别为串行化，恢复数据库为可读可写并⾏备份恢复优化(3/3)

0 码力 | 17 页 | 1.29 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。云数据仓库产品架构云数据仓库产品架构云数据库仓库 UDW 服务的架构图如下所⽰： UDW 采⽤⽆共享的 MPP 架构，适⽤于海量数据的存储和计算。UDW 的架构如上图所⽰，主要有 Client、Master Node 和 Compute Node 组成。基本组成部分的功能如下：产品架构 Greenplum数据仓库 UDW Copyright 调度分发执⾏计划汇总 Segment 的执⾏结果并将结果返回给客⼾端 3. Compute Node： Compute Node 管理节点的计算和存储资源每个 Compute Node 由多个 Segment 组成 Segment 负责业务数据的存储、⽤⼾ SQL 的执⾏⾼可⽤⾼可⽤产品架构 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 2012-2021 UCloud 优刻得 10/206 2.选择计算节点机型、计算节点数量以及付费⽅式。其中可选的机型配置有：机型机型名称名称配置配置存储密集型 ds1.large 4核 24G 2000G(SATA) 存储密集型 ds1.6xlarge 24核 144G 12000G(SATA) 计算密集型 dc1.large 2核 12G 300G(SSD) 快速上⼿ Greenplum数据仓库

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

李正龙 Confidential │ ©2021 VMware, Inc. Agenda 2 - Greenplum 分布式数据库简介 - Greenplum 集群化概述 - 分布式数据存储与多态存储 - 分布式查询优化器与执行器 - Greenplum 中文社区 3 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据库简介 Features Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台，具有良好的弹性和线性拓展能力，内置并行存储、并行通信、并行计算和并行优化功能，兼容 SQL 标准。拥有独特的高效的 ORCA 优化器，具有强大、高效的 PB 级数据存储、处理和实时分析能力，同时支持 OLTP 型业务的混合负载。 Greenplum 分布式数据库简介 5 Confidential │ Segment 提供高可用支持 7 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据存储与多态存储 Hash/Randomly/Replicated Confidential │ ©2021 VMware, Inc. 8 数据存储分布化是分布式数据库要解决的第一个问题。通过将海量数据分散到多个节点上，一方面大大降低了单个节点处理的数据量，另一方面也为处理

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Greenplum分布式事务和两阶段提交协议

Phase Locking, 2PL）、乐观并发控制（OCC） Durability 持久性一个事务在提交之后，该事务对数据库的改变是持久的。 Write Ahead Logging + 存储管理 Jim Gray于1981年VLDB描述了事务的原子性、一致性和持久性，在此基础上，Haerder和Reuter在1983年中提出了事务的隔离性并提出术语 “ACID”，自此，事务的ACID四个性质成为业内标准术语索引/文件/ 记录管理器缓冲区管理器缓冲区锁表存储管理器存储查询计划对索引、文件和记录的请求页命令事务命令查询、更新用户/ 应用 DDL命令数据库管理员数据、元数据、索引日志页读、写页元数据、统计数据元数据 9 存储介质的类型 ■ Volatile storage 易失性存储器 DRAM, Cache, Register ■ Non-volatile storage 非易失性存储器 Disk, SSD, NVM ■ Stable stage 稳定存储器 theoretically never cannot be guaranteed 图片来源: Power consumption estimation using in-memory database computation 10 不同存储介质的访问时间图片来源：Systems

0 码力 | 42 页 | 2.12 MB | 1 年前
3

共 26 条前往

页

分类

语言

格式