Greenplum 精粹文集Big Date2.indd 1 16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单 判断的标准就是看看底下那个轮子有多少人使用,有多少人为它贡 献力量。 2) 为什么是 Postgresql Greenplum 精粹文集 5 1) PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法 支持,除对 ANSI SQL 完全支持外,还支持比如分析函数(SQL2003 OLAP window 函数),还可以用多种语言来写存储过程,对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远,很多分 析功能都不支持,而 Greenplum 作为 MPP 数据分析平台,这些功 能都是必不可少的。0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum机器学习⼯具集和案例tore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 Spark: 不不同的产品,侧重点不不同 MADlib Spark 算法库 易用性 需要编程 查询优化 成熟度稍差 内存和流处理 通过 Gemfire SQL 语法支持 需要提升 磁盘数据 不是核心焦点 并发性能 不是核心焦点 大数据关联 不是核心焦点 2017.thegiac.com ⽤用户案例例 1 Greenplum + 基于API日志的⾦金金融产品⽤用户分析 2017.thegiac.com 问题 ● 更更好地理理解不不同种 类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ● 对实时API请求进 ⾏行行分类和安全检测 ● 数据量量⼤大,现有数 据分析团队缺乏技 能 客户 数据科学解决⽅方案 ● 某⼤大型跨国⾦金金 融服务公司 ● 移动应⽤用 API 分析 ●0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1Greenplum 和相关技术领域,主要工作职责是 售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 .......................................................................................... - 39 - 支持的客户端应用 ............................................................................................ ......................................................................................... - 271 - 支持的操作系统 .............................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 最佳实践分享Greenplum运维常用命令 Greenplum日常检查和故障处理 Greenplum项目经验分享 内核参数 通常情况下,内核参数按照GPDB安装手册配置,如需要增加连接数支持,以下参数需要增大 kernel.shmmax = 1000000000 kernel.sem = 250 512000 100 2048 Redhat 6.2以后,内核增加 Segment 节点一般配置4~8个Instance,初始化完成后很 难修改,需要提前规划; • 每个Instance都是一套独立的进程,当客户端 发起一个请求时,每个Instance都将FORK子进 程并行工作; • 对于并发请求高、面向于复杂的灵活查询的系 统,建议每个Segment配置4个或以下Instance, 这样来保证每个Instance所需资源,保证系统 系统运行稳定性,例如,减少OOM发生的概率; class -> relfilenode)将会发生改变。 Vacuum Full的处理性能非常低,一般情况下不建议采用,可以用Reorganize代替、或者使用AO表; 系统表不支持Reorganize操作,因此,需要定期vacuum,例如设置定时作业,每周对所有系统表vacuum analyze一次 • 查询视图GP_TOOLKIT.GP_BLOAT_DIAG可监控垃圾空间的膨胀系数0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum 分布式数据库内核揭秘具有良好的弹性 和线性拓展能力,内置并行存储、并行通信、并行计算和并行优化功能,兼容 SQL 标准。拥有独 特的高效的 ORCA 优化器,具有强大、高效的 PB 级数据存储、处理和实时分析能力,同时支持 OLTP 型业务的混合负载。 Greenplum 分布式数据库简介 5 Confidential │ ©2021 VMware, Inc. Greenplum 集群化概述 Coordinator/Segment Coordinator 是整个数据库的入口,客户端只会连接 至 Coordinator 节点,并执行相关的查询操作 l Standby 节点为 Coordinator 提供高可用支持 l Mirror 则为 Segment 提供高可用支持 7 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据存储与多态存储 Hash/Randomly/Replicated 的 不同节点间移动。 Confidential │ ©2021 VMware, Inc. 12 除了支持数据在不同的 segment 节点上水平分布以外,还支持在单个节点按照不同的标准进行分 区,将单个节点上一个逻辑上的大表分割成物理上的几块,且支持多级分区。 Greenplum 目前支持的分区方法有: l 范围分区:根据某个列的时间范围或者数值范围对数据进行分区。譬如以下 SQL 将创建一个按天分区的0 码力 | 31 页 | 3.95 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享nal Use Only GPDB:为大数据存储、计算、挖掘而设计 标准 SQL 数据库:ANSI SQL 2008 标准,OLAP,JDBC/ODBC 支持ACID、分布式事务 分布式数据库:线性扩展,支持上百物理节点 企业级数据库:全球大客户超过 1000+ 安装集群 百万行源代码,超过10年的全球研发投入 开源数据库(greenplum.org),良性生态系统 高速数据加载 近实时数据加载 任意系统数据访问 存储 & 数据访问 混合存储引擎(行存&列存) 多种压缩,多级分区表 索引(B树,位图,GiST) 安全性 语言支持 标准SQL支持,SQL 2003 OLAP扩展 支持 MapReduce 扩展编程语言 (Python,R, Java, Perl, C/C++) 第三方工具 BI 工具, ETL 工具 文本分析,数据挖掘等 管理工具 Only 多态存储 列存储更适合压缩 查询列子集时速度快 不同列可以使用不同压缩方式: gzip (1- 9), quicklz, delta, RLE 访问多列时速度快 支持高效更新和删除 AO 主要为插入而优化 表‘SALES’ 11月 列存储 行存储 7月 一年前 二年前 外部表 历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议Logging,分布式事务:两阶段提交协议 Consistency 一致性 数据库系统必须保证事务的执行使得数据库 从一个一致性状态转移到另一个一致性状态。 (满足完整性约束) 实现对A、I、D三个属性的支持 Isolation 隔离性 多个事务并发地执行,对每个事务来说,它并 不会感知系统中有其他事务在同时执行。 多版本并发控制Multi-Version Concurrency Control、 查询编译器/ 优化器 事务管理器 DDL编译器 执行引擎 日志和恢复 并发控制 索引/文件/ 记录管理器 缓冲区管理器 缓冲区 锁表 存储管理器 存储 查询计划 对索引、文件和 记录的请求 页命令 事务命令 查询、更新 用户/ 应用 DDL命令 数据库管理员 数据、元数据、索引 日志页 读、写页 元数据、 统计数据 元数据 9 存储介质的类型 ■ Volatile0 码力 | 42 页 | 2.12 MB | 1 年前3
Greenplum 架构概览Postmaster 进程发起连接请求 PG fork 出⼀个 postgres 进程与该客户端建⽴连接,postmaster 进程不再处理与该客户端的相关请求 postgres 进程接收客户端的请求,处理并返回结果。当然,响应需要经过 libpq 库的处理 基本查询流程 Query Dispatcher 当 client 向 Master 发起查询请求时,Master 节点上的 postmaster postmaster 进程将会 fork 出⼀个⼦进程,叫做 Query Dispatcher(分发 器),简称为 QD 进程 QD 进程会对收到的查询请求进⾏处理,包括解析原始查询语句、优化器优化以及⽣成分布式查询计划,然后将查询计划通过 libpq 库发送 给其它的 Segment 节点 Query Executor Segment 节点上同样是 PG 进程,所以仍然由 postmaster0 码力 | 1 页 | 734.79 KB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商Client:访问 UDW 的客⼾端 ⽀持通过 JDBC、ODBC、PHP、Python、命令⾏ Sql 等⽅式访问 UDW 2. Master Node:访问 UDW 数据仓库的⼊⼝ 接收客⼾端的连接请求 负责权限认证 处理 SQL 命令 调度分发执⾏计划 汇总 Segment 的执⾏结果并将结果返回给客⼾端 3. Compute Node: Compute Node 管理节点的计算和存储资源 copy_from ⽅法请参考: http://initd.org/psycopg/docs/cursor.html。 数据分析 数据分析 在⻚⾯上点击分析指标,选择查询时间段,发送查询请求,后端收到请求后执⾏如下SQL查询: SELECT time, data FROM t_unetanalysis_data where uuid='xxx' and item_id=xxx and time>xxx0 码力 | 206 页 | 5.35 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 .............................................................................................. 8 支持多种云不受限于基础架构的数据平台 .................................................................................. 近日,Greenplum 社区和欧拉开源社区深化合作,在欧拉开源操作系统(openEuler, 简称“欧拉”)编译测试了高级分 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点,0 码力 | 17 页 | 2.04 MB | 1 年前3
共 33 条
- 1
- 2
- 3
- 4













