列存储 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum数据仓库UDW - UCloud中立云计算服务商

的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。云数据仓库产品架构云数据仓库产品架构云数据库仓库 UDW 服务的架构图如下所⽰： UDW 采⽤⽆共享的 MPP 架构，适⽤于海量数据的存储和计算。UDW 的架构如上图所⽰，主要有 Client、Master Node 和 Compute Node 组成。基本组成部分的功能如下：产品架构 Greenplum数据仓库 UDW Copyright 调度分发执⾏计划汇总 Segment 的执⾏结果并将结果返回给客⼾端 3. Compute Node： Compute Node 管理节点的计算和存储资源每个 Compute Node 由多个 Segment 组成 Segment 负责业务数据的存储、⽤⼾ SQL 的执⾏⾼可⽤⾼可⽤产品架构 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 2012-2021 UCloud 优刻得 10/206 2.选择计算节点机型、计算节点数量以及付费⽅式。其中可选的机型配置有：机型机型名称名称配置配置存储密集型 ds1.large 4核 24G 2000G(SATA) 存储密集型 ds1.6xlarge 24核 144G 12000G(SATA) 计算密集型 dc1.large 2核 12G 300G(SSD) 快速上⼿ Greenplum数据仓库

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

..................................................................................... - 21 - 数据是如何存储的 ................................................................................................. ..................................................................................... - 89 - 使用表空间存储 DB 对象 ......................................................................................... - 90 ...................................................................................... - 96 - 选择表的存储模式 ................................................................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

2013 Pivotal. All rights reserved. Greenplum 简介 4 Pivotal Confidential–Inter nal Use Only GPDB：为大数据存储、计算、挖掘而设计标准 SQL 数据库：ANSI SQL 2008 标准，OLAP，JDBC/ODBC 支持ACID、分布式事务分布式数据库：线性扩展，支持上百物理节点企业级数据库：全球大客户超过无共享大规模并行处理先进的查询优化器多态存储系统客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构并行数据流引擎高速软数据交换机制 MPP Scatter/Gather 流处理在线系统扩展任务管理服务加载 & 数据联邦高速数据加载近实时数据加载任意系统数据访问存储 & 数据访问混合存储引擎（行存&列存）多种压缩，多级分区表索引（B树，位图，GiST） Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D 10 Pivotal Confidential–Inter nal Use Only 多级分区存储 • 哈希Distribution：数据均匀的分布到各个数据节点 • 范围分区：数据节点内部，根据多种规则分区，降低扫描量数据集 Segment 1A Segment 1C Segment

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum 精粹文集

，在技术上也难于满足数据计算性能指标，传统主机的 Scale-up 模式遇到了瓶颈， SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于 GFS 分布式文件系统，另外一篇是关于 MapReduce 并行计算框架的理论，分布式计算模式在互联网 MPP（海量并行处理）计算框架，最终还是需要软件来实现，Greenplum 正是在这一背景下产生的，借助于分布式计算思想，Greenplum 实现了基于数据库的分布式数据存储和并行计算（GoogleMapReduce 实现的是基于文件的分布式数据存储和计算，我们会在后面比较这两种方法的优劣性）。话说当年 Greenplum（当时还是一个 Startup 公司，创始人家门口有一棵青梅 ——green PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法支持，除对 ANSI SQL 完全支持外，还支持比如分析函数（SQL2003 OLAP window 函数），还可以用多种语言来写存储过程，对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远，很多分析功能都不支持，而 Greenplum 作为 MPP 数据分析平台，这些功能都是必不可少的。 2) Mysql

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

base的，统计信息的准确性对查询计划的优劣有很大影响；  对于字段数较多的表，可关闭gp_autostate_mode (on_no_stats=>none)，仅对必要列执行Analyze，只在结果中返回的列无需收集统计信息；  对于频繁创建表删表的系统，可关闭gp_autostate_mode(on_no_stats=> on_change) ，数据变化量达到一定阀值才收集统计信息； Update/delete操作后，数据库不会自动释放这些空间，这些垃圾空间的回收方式： 1）Vacuum 2）Vacuum full 3）REORGANIZE • 不进行垃圾空间回收的影响 o 垃圾空间浪费存储空间 o 垃圾空间影响查询性能注：delete all用truncate代替，truncate无需回收垃圾空间垃圾空间回收  Vacuum：标记垃圾空间为可再利用对象不要超过10 0000个  最佳实践是出于对系统性能和稳定性因素建议对pg_class 所维护的对象数进行约束  减少对象数的方法： – 提高分区粒度 – 避免大范围使用列存储  pg_class对象数如果不进行约束，可能会产生以下问题： – gprecoverseg –F效率低，数据库实例修复如果增量同步失败，我们一般会建议使用gprecoverseg –F进行全量同

0 码力 | 41 页 | 1.42 MB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

Use Only 卓越的OLAP特性列式存储分区、压缩高级特性递归查询、窗口函数集成分析多格式、多语言 Madlib: 机器学习数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器成熟稳定完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储表‘SALES’ 表‘SALES’ ■ ■ 更适合压缩 ■ 查询部分列时速度快 ■ 不同列可以使用不同压缩方式 amount cust_id 表 orders 14 Pivotal Confidential–Internal Use Only Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2D Segment 3A Segment converged model = SELECT model.aggregation(…) FROM data table ENDWHILE 模型存储过程 … 广播 Segment 2 Segment n … Transition 函数操作一小批数据并更新模型状态 1 Merge 函数 2 Final函数 3 Segment

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

李正龙 Confidential │ ©2021 VMware, Inc. Agenda 2 - Greenplum 分布式数据库简介 - Greenplum 集群化概述 - 分布式数据存储与多态存储 - 分布式查询优化器与执行器 - Greenplum 中文社区 3 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据库简介 Features Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台，具有良好的弹性和线性拓展能力，内置并行存储、并行通信、并行计算和并行优化功能，兼容 SQL 标准。拥有独特的高效的 ORCA 优化器，具有强大、高效的 PB 级数据存储、处理和实时分析能力，同时支持 OLTP 型业务的混合负载。 Greenplum 分布式数据库简介 5 Confidential │ Segment 提供高可用支持 7 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据存储与多态存储 Hash/Randomly/Replicated Confidential │ ©2021 VMware, Inc. 8 数据存储分布化是分布式数据库要解决的第一个问题。通过将海量数据分散到多个节点上，一方面大大降低了单个节点处理的数据量，另一方面也为处理

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Greenplum上云与优化

为什么上云？ 2016Postgres中国用户大会 ApsaraDB for GP的定位 ApsaraDB for GP = 简单、高效解决大数据分析需求 MPP + 列存压缩复杂SQL + 查询优化器本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 GP vs. RDS? Select count(*) from customer group status = valid group by city 列存与压缩原理举例 ….. ….. Name Id status city 列存块 ….. 列存块列存 ≈索引 + index only 2016Postgres中国用户大会 GP vs. Hadoop? Orca优化器 SQL Runtime 本地存储 >5-30倍的性能优势 2016Postgres中国用户大会应用服务器 2016Postgres中国用户大会 ApsaraDB for GP的定位 ApsaraDB for GP = 简单、高效解决大数据分析需求 MPP + 列存压缩复杂SQL + 查询优化器本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 ApsaraDB for GP的内核优化 2016Postgres中国用户大会 ApsaraDB

0 码力 | 26 页 | 1.13 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

Ø不同数据量，不同事务特点，不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP，趋势分析数据库归档，只能load，不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系四 Greenplum扩展规划 10 greenplum体系架构 postgresql体系结构 11 greenplum体系架构 postgresql体系结构 • pg结构组成 Ø 连接关系系统 Ø 编译执行系统 Ø 存储执行系统 Ø 事务系统 Ø 系统表 • pg逻辑和物理结构 Ø instance实例 - user - tablesapce Ø database - schema - table,view,function

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

查询优化器相比，GPORCA 大幅度地提高了查询性能。 Pivotal Greenplum 5：新一代数据平台作为重要的新版本，Pivotal Greenplum 5 带来了多项产品改进和新增功能，在管理数据和对数据库中存储的信息应用数据科学、分析、报告和数据洞察方法方面，这些功能对大多数客户都很有帮助。Greenplum 解决方案的架构设计目的是管理非常复杂的查询，以及为符合 ANSI 标准的 SQL 提供强有力 PostgreSQL 新增功能。新一代数据平台 IT 人员开发人员业务分析师数据科学家灵活部署数据源和数据管道 Spring Cloud Data Flow ETL 本地存储 HDFSS 云对象存储 GemFire Spark 其他 RDBMSes 多结构数据 PIVOTAL GREENPLUM 平台原生接口分析应用用户 JDBC、OBBC Teradata SQL 完全托管云本地 BI / 报告自定义应用机器学习 AI SQL 大规模并行处理 (MPP) PB 级数据加载查询优化器 (GPORCA) Workload Manager 多态存储 Command Center SQL 兼容性 (Hyper-Q) PostgreSQL 内核 JSON、Apache AVRO、Apache Parquet 和 XML 结构化数据 pivotal

0 码力 | 9 页 | 690.33 KB | 1 年前
3

共 25 条前往

页

分类

语言

格式