函数是一等公民 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 新一代数据管理和数据分析解决方案

1 新一代数据管理和数据分析解决方案关于Greenplum公司 • Greenplum是一家数据库软件公司，在数据处理和 BI/DW领域，提供容量最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥，加利福尼亚州，美国，成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站： www.greenplum 监管要求商务智能/数据仓库发展趋势一切都在增长! 数据仓库工作量：数据膨胀面临的新难题是如何处理大规模数据过去的10年现在 HPC 企业 SME 万亿字节千兆字节兆字节千万亿字节万亿字节千兆字节行业商务智能解决方案的实例政府电信金融服务公民服务国家安全电子政务法规实施和监管人力资本管理信息传播合规性报告资产组合分析查询09年5月份数据 49秒 N 同上报表二：查询09年1月份数据 40秒 N 基于查询语句 SQL2A和 SQL2B 报表二：查询09年5月份数 32秒 N 同上复杂查询本项测试的目的是通过SQL查询检验Greenplum数据库引擎处理Query计算的响应速度。测试方法：针对数据加载测试中的三张大表，模拟生产业务需求进行复杂SQL语句查询(参看附录)。测试结果如下面两表：语句名

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

Greenplum 和相关技术领域，主要工作职责是售后支持，帮助我们的 Greenplum 用户解决生产需求和技术问题，我们坚持提供最专业的建议和解决方案，提供最专业的技术支持服务，提供最专业的落地实施支持。十多年来，参与过的项目不计其数，有 POC 测试，有开发支持，有故障支持，有长期驻场支持，有临时的功能支持，甚至可能会作为用户看不见的后端支持，总之，我们的目标是，努力解决用户的一切不违背自然规律的诉求，我们跟随着成长，见证了 Greenplum 从闭源到开源的成长历程，一路给 Greenplum 做各种补丁脚本，也看到了 Greenplum 的大幅进步，甚至我们以前的小技巧也不再需要，持续的进步，带来的是生态的蓬勃发展。 Greenplum Database 管理员指南 V6.2.1 版权所有：Esena(陈淼 +86 18616691889) 编写：陈淼 - 2 - 序言 ........................................................................................ - 21 - 数据是如何存储的 ..............................................................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

2、数据库管理 3、模式管理 4、表格设计 5、加载数据 6、分区表 7、序列 8、索引 9、 ANALYZE/VACUUM 10、常⽤SQL⼤全 12、常⽤SQL命令 13、⽤⼾⾃定义函数⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 3/206 128 132 132 132 139 139 139 141 191 192 udw优化指南表膨胀表膨胀表膨胀的原因如何避免表膨胀 UDW中中Json类型类型 Json相关操作 Json操作举例 Json相关函数 Json创建函数 Json处理函数接⼊第三⽅接⼊第三⽅ BI ⼯具⼯具⼀、 UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例使⽤案例案例⼀利⽤ logstash+Kafka+UDW 概览 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 6/206 产品架构产品架构数据仓库（UCloud Data Warehouse）是⼤规模并⾏处理数据仓库产品，基于开源的Greenplum开发的⼤规模并发、完全托管的PB级数据仓库服务。UDW可以通过SQL让数据分析更简单、⾼效，为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum 精粹文集

16/11/23 下午5:46 Greenplum 精粹文集 1 一、Greenplum 的前生今世 1. Greenplum 的起源 Greenplum 最早是在 10 多年前（大约在 2002 年）出现，基本上和 Hadoop 是同一时期（Hadoop 约是 2004 年前后出现的，早期的 Nutch 可追溯到 2002 年）。互联网行业经过之前近 10 年的由慢到快的发展，累积了大量信息和数 SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于 GFS 分布式文件系统，另外一篇是关于 MapReduce 并行计算框架的理论，分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 当时，开放的X86服务器技术已经能很好的支持商用，借助高速网络（当时是千兆以太网）组建的 X86 集群在整体上提供的计算能力已大幅高于传统 SMP 主机，并且成本很低，横向的扩展性还可带来系统良好的成长性。问题来了，在 X86 集群上实现自动的并行计算，无论是后来的 MapReduce 计算框架还是 MPP（海量并行处理）计算框架，最终还是需要软件来实现，Greenplum 正是在这一背景下产生的，借助于分

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum 编译安装和调试

gpinitsystem 有一个 -D 选项，使用这个选项可以看到更多的输出信息，根据这些额外的输出信息可以发现并解决大部分问题。 2.2.2 查看日志常用的日志文件有两类，一种是 gpinitsystem 的日志，一种是数据库的日志。它们分别保存在不同的目录下： ● gpinitsystem 的日志文件。默认路径为 ~/gpAdmin/gpinitsystem_*** ● 数据库的日志文件：进入原因是 psutil 这个python包没有安装，但是使用 python 验证，发现已经安装了。而使用 ssh 验证发现使用了不同路径的 python。 2.2.8 小技巧 Greenplum使用 Bash 和 Python 脚本初始化集群和管理集群。可以通过在合适的地方设置日志或者调试信息可以帮助分析某些难以解决的问题。 ● 集群初始化工具 gpinitsystem 是Bas 是Bash脚本工具，有些时候它的报错信息很不清楚。这个时候可以 ○ 使用 -D 选项 ○ gp_bash_functions.sh 是内部一个被频繁调用执行系统命令的函数，可以通过 set -x 可以打印出所有执行的命令的详细信息。对调试 hang 问题很有效。 ● 在合适的代码处启用 Python 调试器，如果不知道什么地方合适，则在入口处。 3. Greenplum SQL执行流程概要

0 码力 | 15 页 | 2.07 MB | 1 年前
3
Greenplum 排序算法

Greenplum TupleSort ● 排序在Greenplum中的应用 Outline 6 ● 冒泡排序 ● 插入排序 ● 快速排序 ● 堆排序 ● 基数排序内排序算法 7 快速排序是最常用的排序算法，由Tony Hoare在1959年发明。快速排序算法的三个步骤： ● 挑选基准值：从数列中挑选出一个基准元素，称为pivot ● 分割：重新排序数组，所有比基准元素小的元素排放到基准元素之前；所有比基两个子集。快速排序 6 8 3 2 7 1 7 9 8 7 7 9 6 3 2 1 分治法 9 快速排序 ● 快速排序算法： 10 堆排序是最常用的排序算法，由J.Williams在1964年发明。 ● 堆是一种近似完全二叉树的结构，最大值堆要求每个子节点的键值总是小于父节点。最小值堆要求每个子节点的键值总是大于父节点。堆排序算法 ● 步骤1：建立最大值堆,最大元素在堆顶堆排序算法堆排序 21 ● 归并排序分为两个阶段，阶段一是分割阶段，将原始待排序数据分成若干个顺串。阶段二是合并阶段，将所有小顺串合并成一个包含所有数据的大顺串外排序之归并排序 1 7 4 8 1 7 4 8 1 4 7 8 待排序数据分割阶段合并阶段 22 ● 问题一：分割阶段只需要顺序扫描一次外存，最简单的策略是读取外存数据，加载到内存，当内存用满时，执行快速排序等内排序算法，生成一个顺串。之后清

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

Greenplum 不受限于基础架构，这意味着它是一种可完全移植的分析数据库软件解决方案，可部署在多云环境（公有云和私有云）中，也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计，能够处理多种并发混合工作负载的复杂查询。与旧式 MPP 数据库中常用的传统 RDBMS Greenplum 5 带来了多项产品改进和新增功能，在管理数据和对数据库中存储的信息应用数据科学、分析、报告和数据洞察方法方面，这些功能对大多数客户都很有帮助。Greenplum 解决方案的架构设计目的是管理非常复杂的查询，以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询，它让服务器群集能够以单一数据超级计算机的方式运行，且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分开源。由此产生的最积极结果是 Greenplum Database 社区规模迅速扩大。该社区的成员为核心组件的开发贡献了力量，并且已经受益于 Pivotal 长久以来在市场上取得的成功。从 2017 年初开始，他们每个月发布一次 Greenplum 更新，使其保有快速而可靠的创新力。此次推出的 Greenplum 5 是一个功能齐全、动态的、创新型分析数据平台，其产品路线图规划健全且充满活力，无论是短期内还是未来长期时间里，都能满足客户的需求。

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum分布式事务和两阶段提交协议

Concurrency Control、两阶段加锁（Two Phase Locking, 2PL）、乐观并发控制（OCC） Durability 持久性一个事务在提交之后，该事务对数据库的改变是持久的。 Write Ahead Logging + 存储管理 Jim Gray于1981年VLDB描述了事务的原子性、一致性和持久性，在此基础上，Haerder和Reuter在1983年中提出了事务的隔离性并提出术语 Semantics, 1993, IBM DB2 19 ● Steal + No-force ● redo log，没有undo log，事务回滚不需要做undo操作 • PG采用的是MVCC，更新操作不是in-place update，而是重新创建tuple，可见性判断 • Robert Haas 2018, “DO or UNDO - there is no VACUUM”: 分布式事务和两阶段提交的原理 ● Greenplum两阶段提交协议的实现 ● Greenplum两阶段提交协议的优化 Outline 22 分布式事务 ● 分布式事务，分布式环境下的事务，是一个典型的嵌套式事务，一个事务由多个工作节点的子事务组成。 ● 必须保证参与分布式事务的各个场地（节点）的事务，要么全部提交，要么全部rollback，不能出现部分提交的情况。一阶段提交不能保证

0 码力 | 42 页 | 2.12 MB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

primary segment mirror segment 6 Pivotal Confidential–Internal Use Only 数据分布: 并行化的根基最重要的策略和目标是均匀分布数据到各个数据节点。 43 Oct 20 2005 12 64 Oct 20 2005 111 45 Oct 20 2005 42 46 Oct 20 2005 64 77 Oct 20 2005 are well-showcased 12 Pivotal Confidential–Internal Use Only 卓越的OLAP特性列式存储分区、压缩高级特性递归查询、窗口函数集成分析多格式、多语言 Madlib: 机器学习数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器成熟稳定完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal total_quantity FROM included_parts GROUP BY sub_part 16 Pivotal Confidential–Internal Use Only 窗口函数表‘SALES’ 表‘SALES’ ■ 计算移动平均值或各种时间间隔的总和 ■ 分组内重置聚合和排序 SELECT last_name, salary, department

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

│ ©2021 VMware, Inc. Greenplum 分布式数据库简介 Features Confidential │ ©2021 VMware, Inc. 4 Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台，具有良好的弹性和线性拓展能力，内置并行存储、并行通信、并行计算和并行优化功能，兼容 SQL 标准。拥有独特的高效的 ORCA 架构 l Greenplum 集群通常由一个 Coordinator 节点、一个 Standby Coordinator 节点以及多个 Segment 节点组成 l Coordinator 是整个数据库的入口，客户端只会连接至 Coordinator 节点，并执行相关的查询操作 l Standby 节点为 Coordinator 提供高可用支持 l Mirror 则为 Segment Inc. Greenplum 分布式数据存储与多态存储 Hash/Randomly/Replicated Confidential │ ©2021 VMware, Inc. 8 数据存储分布化是分布式数据库要解决的第一个问题。通过将海量数据分散到多个节点上，一方面大大降低了单个节点处理的数据量，另一方面也为处理并行化奠定了基础，两者结合起来可以极大的提高系统的性能。譬如在 100 个节点的集群上，每

0 码力 | 31 页 | 3.95 MB | 1 年前
3

共 25 条前往

页

分类

语言

格式