分库分表 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

基于 Greenplum 打造SaaS化电商服务平台

G P 1 G P 2 G P 2 5 交换库 •业务库 •分库分表 •一组五个数据库 •250组数据库+公共库 •每15到20天增加10组 •31个GP集群 •30个业务数据集群，一个数据交换集群 •ETL处理，大部分在线分析查询采用GP •极端复杂查询拆分 •2019年7月上线ADB分担极端复杂的在线分析，有待验证数据集市报表 CRM 胜算 …… ……

0 码力 | 7 页 | 547.94 KB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

..................................................................................... - 85 - 创建与管理表空间 ................................................................................................. ......................... - 87 - 创建表空间 ................................................................................................................ - 89 - 使用表空间存储 DB 对象 ......................... ................................... - 90 - 查看现有的表空间和文件空间 ................................................................................ - 91 - 删除表空间和文件空间 ..........................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

现自动的并行计算，无论是后来的 MapReduce 计算框架还是 MPP（海量并行处理）计算框架，最终还是需要软件来实现，Greenplum 正是在这一背景下产生的，借助于分布式计算思想，Greenplum 实现了基于数据库的分布式数据存储和并行计算（GoogleMapReduce 实现的是基于文件的分布式数据存储和计算，我们会在后面比较这两种方法的优劣性）。话说当年），但是 Postgresql 是单实例数据库，怎么能在多个 X86 服务器上运行多个实例且实现并行计算呢？为了这，Interconnnect 大神器出现了。在那一年多的时间里，大咖们很大一部分精力都在不断的设计、优化、开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多个 Postgresql 实例的高效协同和并行计算，Interconnect 承载了并行查询计划生产和 join 技术：hash join、merge join、nestloop join 的支持方面，Mysql 只支持最后一种 nestloop join（据说未来会支持 hash join），而多个大表关联分析时 hash join 是必备的利器，缺少这些关键功能非常致命，将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做对比测试时，发现其优点是 OLTP 非常快，TPS

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

通过Greenplum超级数据处理引擎增强竞争优势 Greenplum数据引擎：内容和方式价值主张 – 性价比：性能可达到传统方案（Oracle、Teradata）的 10到100倍，而成本只是其一小部分 – 可伸缩性：从较低的万亿字节扩展到千万亿字节 – 开放式系统：在通用系统和开放源软件的基础上创建前提条件 – 硬件：基于开放式标准硬件 – 软件：Postgres和Greenplum 客户实例：福克斯互动媒体（Fox Interactive Media） • 业务问题 • 改进定位广告 • 竞争对手 • Teradata, Oracle • 数据规模 • 1万亿行事实数据表，每天增加 3TB • 硬件 • 40节点的Sun数据仓库设备 • 优势 • 可以通过控制支持快速膨胀的数据集 “Greenplum将成为我们不可或缺的合作伙伴，因为我们需要不断更新数据操作方式，使用户和广告商 Reliance 的副总裁和主管（决策支持系统）Raj Joshi 25 响应时间 (分) 以前的数据库客户实例： PLDT • 业务问题 CDR分析 • 竞争对手 Oracle • 数据规模 2200万用户 / 7亿次交易 • 优势数据装载时间减少8倍，查询速度从2小时提高到15分钟 “我们业务所面临的一个关键挑战就是要处理很大的数据量。 Greenplum技术可以帮助我们更好地了

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

Confidential │ ©2021 VMware, Inc. 11 随机分布则采用随机的方式将数据存储到不同的节点。当不确定一张表的哈希分布键，或者是不存在合理的避免数据倾斜的分布键时，即可采用随机分布的方式。随机分布与复制分布复制分布则表示整张表在每个节点上都有一份完整的拷贝，假设我们有 100 个节点，复制表则会将数据保存 100 份。复制表可避免生成分布式查询计划，而是生成本地计划，从而避免数据在集群的除了支持数据在不同的 segment 节点上水平分布以外，还支持在单个节点按照不同的标准进行分区，将单个节点上一个逻辑上的大表分割成物理上的几块，且支持多级分区。 Greenplum 目前支持的分区方法有： l 范围分区：根据某个列的时间范围或者数值范围对数据进行分区。譬如以下 SQL 将创建一个按天分区的分区表，将 2021-01-01 到 2022-01-01 这一年的数据分成 366 个分区: 列表分区：按照某个列的数值列表，将数据分到不同的分区。譬如以下 SQL 将根据性别创建一个分区表，共有 3 个分区: 一个分区存储男士数据，一个分区存储女士数据。对于其它值譬如 NULL，在存储在默认分区 others 中: 分区表 Confidential │ ©2021 VMware, Inc. 13 Greenplum 支持多态存储，即单张用户表，可以根据访问模式的不同而使用不同的存储方式存储不同的分区。例如

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

非常复杂的查询，以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询，它让服务器群集能够以单一数据超级计算机的方式运行，且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分析扩展功能支持 ANSI SQL，并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够管理各种规模的数据卷，数据量从数 GB 到数 PB 不等。 pivotal.io/cn 白皮书是一个功能齐全、动态的、创新型分析数据平台，其产品路线图规划健全且充满活力，无论是短期内还是未来长期时间里，都能满足客户的需求。支持多种云不受限于基础架构的数据平台 Pivotal Greenplum 5 是首个内核百分百基于 Greenplum Database 开源项目及其相关源代码的版本。这意味着，可以通过 greenplum.org 网站下载和编译的版本以及通过 Pivotal Network 分发的打包版本将具有相同的内核（只有个别微小差的架构设计使其能够以高效得多的方式处理此类复杂查询，因为它可以去除不必要的嵌套，通过提出子查询谓词来取消子查询的关联，并将子查询转换为更高效的表连接。5 另一个有所改进的部分是公共表表达式 (CTE)，这是指仅用于一个查询的临时表，通常在分析工作负载中十分常用。例如，在 TPC-DS 中，111 个查询中有 46 个使用了 CTE。GPORCA 为 WITH 子句引入了一种新的生成者 - 使用者模式。利用该模

0 码力 | 9 页 | 690.33 KB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

白皮书 4 白皮书 | 4 关于本白皮书近日，Greenplum 社区和欧拉开源社区深化合作，在欧拉开源操作系统（openEuler, 简称“欧拉”）编译测试了高级分析数据平台 Greenplum，用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容，是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板，大大丰富了中国本 deadlockdetector）这项技术对性能提升特别是 Update 和 Delete 至关重要。锁是数据库中实现并发控制的重要技术，随之而来的死锁处理。Greenplum 创新性的采用了分布式死锁检测，更新删除表的锁级别已降低，支持并发更新删除操作，大大提升了处理性能。并发控制优化 Greenplum 6 除了全局死锁检测，还引入了多项其他并发控制优化方法，这些优化对 SELECT 和 INSERT 期间不会中断正在运行的所有查询；另外采用了 Jump Consistent Hash 的一致性哈希算法, 在数据重分布期间，每个旧节点仅移动出需要移动的数据到新节点上, 得益于创新的分布式死锁检测，对于大量小表做并行重分布性能提升非常明显。 Greenplum VACUUM 提升将在 Greenplum 7 中实现此功能，能够做到： 1 https://arxiv.org/pdf/2103

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

M22 统计信息收集  对于系统表和用户表需要收集统计信息，GPDB的查询计划是cost base的，统计信息的准确性对查询计划的优劣有很大影响；  对于字段数较多的表，可关闭gp_autostate_mode (on_no_stats=>none)，仅对必要列执行Analyze，只在结果中返回的列无需收集统计信息；  对于频繁创建表删表的系统，可关闭gp_autostate_mode(on_no_stats=> all用truncate代替，truncate无需回收垃圾空间垃圾空间回收  Vacuum：标记垃圾空间为可再利用 Vacuum用于将数据表垃圾空间标记到FSM（自由空间映射），一般也不回收空间，当往该表插入新数据时，数据库会重新这些空间。 FSM驻留在内存中，FSM的大小必须足够标记数据库中的所有过期记录。如果尺寸不够大,超出自由映像空间的过期记录占用 Reorganize相当于重建表，数据表对应的文件名（pg_class -> relfilenode)将会发生改变。 Vacuum Full的处理性能非常低，一般情况下不建议采用，可以用Reorganize代替、或者使用AO表；系统表不支持Reorganize操作，因此，需要定期vacuum，例如设置定时作业，每周对所有系统表vacuum analyze一次 • 查询视图GP_TOOLKIT

0 码力 | 41 页 | 1.42 MB | 1 年前
3
Greenplum 架构概览

Greenplum 架构概览基本拓扑结构如上图，我们可以认为 Greenplum（后简称 GP）就是很多个 PostgreSQL 实例所组成的集群。GP 对外提供统⼀的数据接⼝，并帮助⽤户⾃动完成数据分⽚、并⾏查询与聚合等诸多分布式数据库功能 GP 是⼀种典型的 Master-Segment 架构，⼀个 GP 集群通常由⼀个 Master 节点、⼀个 Standby Master 节点以及多个是存储和处理数据的唯⼀⼊⼝，Slave 仅复制 Master 的数据。⽐如 MySQL 的主从模型、Redis 的主从模型在 Master-Segment 模型下，⾸先 Master 节点不存储数据，其次就是数据将会以分⽚的⽅式存储在多个 Segment 节点中。这⾥可以类⽐ Redis Cluster，只不过 Redis Cluster 是去中⼼化的。在 Master-Segment 模型中通常也会包含 Master-Slave 则会同时进⾏数据分区（⽔平扩展）和复制（冗余）分区与分⽚在项⽬初期，我们使⽤⼀张表 T 存储数据。随着业务的增多，单表出现性能瓶颈，因⽽将 T ⽔平拆分成多个表进⾏存储，这个过程通常称为分区。紧接着，单⼀的数据库实例出现瓶颈，因此需要使⽤多个节点创建多个数据库实例，再按照某种规则将数据尽可能均匀地分布到各个节点上，这个过程通常称之为分⽚ GP 同时⽀持数据的分⽚和分区，具体的分⽚和分区规则将会在后⾯的总结中详述

0 码力 | 1 页 | 734.79 KB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

Scatter/Gather 流处理在线系统扩展任务管理服务加载 & 数据联邦高速数据加载近实时数据加载任意系统数据访问存储 & 数据访问混合存储引擎（行存&列存）多种压缩，多级分区表索引（B树，位图，GiST）安全性语言支持标准SQL支持，SQL 2003 OLAP扩展支持 MapReduce 扩展编程语言 (Python,R, Java, Perl, C/C++） SELECT COUNT(*) FROM orders WHERE order_date >= ‘Oct 20 2007’ AND order_date < ‘Oct 27 2007’ & orders 表数据均匀分布于各个节点仅仅扫描 orders 表相关的分区 Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 不同列可以使用不同压缩方式: gzip (1- 9), quicklz, delta, RLE 访问多列时速度快支持高效更新和删除 AO 主要为插入而优化表‘SALES’ 11月列存储行存储 7月一年前二年前外部表历史数据和不常访问的数据存储在 HDFS 或者其他外部系统中无缝查询所有数据 Text, CSV, Binary, Avro, Parquet

0 码力 | 44 页 | 8.35 MB | 1 年前
3

共 27 条前往

页

分类

语言

格式

基于 Greenplum 打造SaaS化电商服务平台

Greenplum Database 管理员指南 6.2.1

Greenplum 精粹文集

Greenplum 新一代数据管理和数据分析解决方案

Greenplum 分布式数据库内核揭秘

Pivotal Greenplum 5：新一代数据平台

完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

Pivotal Greenplum 最佳实践分享

Greenplum 架构概览

Greenplum数据库架构分析及5.x新功能分享