Greenplum 6: 混合负载的理想数据平台Greenplum 6: 混合负载的理想数据平台 高小明 全球领先的开源MPP大数据平台 可扩展性 ACID事务 VS 分布式 简单易用 VS 结构化 半结构非结构化 VS 事务型 分析型 VS MPP - massively parallel processing - 大规模并行处理 master standby primary segment cust_id = 2 WHERE id = 2; 29 Pivotal Confidential–Internal Use Only 完整的增删改查 表‘SALES’ 表‘SALES’ ■ 读和写不阻塞 ■ 支持更改删除、删除 ■ 支持更改分布键、主键(将数据从一个节点移到另一个节点) 30 Pivotal Confidential–Internal Use Only Greenplum 6:并发改删和分布式死锁检测0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 35 - hostnossl 匹配 TCP/IP 方式的非 SSL 加密连接。 database 设置该记录匹配的 DB Name。all 可以匹配全部 DB。多个 DB Name 可以 使用逗号(,)分割。或者使用@符号跟随文件名的方式指定,该文件包含需 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 38 - 第三方对包的窥探,防止中间层的攻击。在非安全网络环境中有必要使用 SSL,且在使 用权限认证时更为必要。使用 SSL 需要在客户端和 Master 端都安装有 OpenSSL。在 设置参数 ssl=on(在 Master 的 postgresql 在资源队列中控制,允许超过限制 在事务级别控制,更精准,不允许超过限制 内存隔离 无 在资源组之间隔离,在同一资源组内的不同 事务之间隔离 用户 资源配额仅对非管理员用户有效 资源配额对管理员用户和非管理员用户同样 有效 排队 仅当没有槽位可用时开始排队 当没有槽位可用时或者没有足够的可用内存 时开始排队 查询失败 当没有足够的可用内存时可能会立即 失败0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 6新特性:
在线扩容工具GPexpand剖析建立并添加新节点 – 数据重分布 GPExpand简介与具体用法 • 增加新节点 – gpexpand –i 配置文件 • 数据重分布 – gpexpand • 清理 – gpexpand -c GPExpand简介与具体用法 • 增加新节点 – gpexpand –i 配置文件(gpexpand生成或手动编辑) sdw:sdw:25438:/data/expand1/primary:9:3:p 表执行操作时也会按照numsegment值分配Gang ▪ 增加新节点后,对每个表做EXPAND后该值会随着改成新集群的大小 改进与实现 改进与实现 • EXPAND每个表 – 对表加最高级别锁(其他读写均被阻塞) – 移动数据到新节点 – 修改numsegments – 释放锁 改进与实现 • numsegments的收益 – 不需要将表改成随机分布,单表查询可以做优化 – 对于Join查询,如果分布状态相同的情况下,可以被优化 ▪ Greenplum 6中因为全局死锁检测的引入可以对heap表做并行更新 改进与实现 • 扩容期间对查询的影响 – 新增节点阶段无法修改catalog – 对于正在重分布的表的读写访问均会被阻塞 – 对于分布状态不相同的哈希分布表的Join无法做优化 Q&A Thank you0 码力 | 37 页 | 1.12 MB | 1 年前3
Greenplum 精粹文集Postgresql 来做内部的 OLAP 分析数据库,甚 至对新的 OLTP 系统也直接采用 Postgresql。 相比之下,Greenplum 更强悍,把 Postgresql 作为实例(该实例非 Oracle实例概念,这里指的是一个分布式子库架构在Interconnect下), 在 Interconnect 的指挥协调下,数十个甚至数千个 Sub Postgresql 数 据库实例同时开展并行计算。而且,这些 可 以 在 Greenplum 上 使 用, 例 如 odbc、jdbc、oledb、perldbi、python psycopg2 等,所以 Greenplum 与第三方工具、BI 报表集成的时候非 常容易;对于 postgresql 的 contrib 中的一些常用模块 Greenplum 提 供了编译后的模块开箱即用,如:oraface、postgis、pgcrypt 等, 对于其它模块,用户可以自行将 另外,Mapreduce 在整个 MAP->Shuffle->Reduce 过程中通过文件 来交换数据,效率很低,MapReduce 要求每个步骤间的数据都要序列 化到磁盘,这意味着 MapReduce 作业的 I/O 成本很高,导致交互分 析和迭代算法开销很大,MPP 数据库采用 Pipline 方式在内存数据流 中处理数据,效率比文件方式高很多。 总结以上几点,MPP 数据库在计算并行度、计算算法上比 Hadoop0 码力 | 64 页 | 2.73 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 Ø事务大,频率相对小,并发低 • 未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) greenplum体系架构 greenplum的体系结构 • greenplum的架构特点 Ø MPP ShareNothing 海量并行处理+完全无共享 Ø cpu计算能力 Ø 数据从Disk上的I/O吞吐性能 Ø master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载 (gpfdist+外部表,每小时4TB+) Ø 实时交互操作 Ø 以对账业务为主,统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数 Ø 以重点业务线、活动数据、非OLTP业务数据的任务计算为主 • 公司IDC_03机房Greenplum体系 Ø 数据来源来源为OTLP库库,针对大数据量传输和计算,采用T+1方式 Ø 以核心业务的数据计算、统计为主 180 码力 | 43 页 | 9.66 MB | 1 年前3
Pivotal Greenplum 最佳实践分享RHLE /etc/rc.d/rc.local 追加内容: blockdev --setra 16384 /dev/sd* for i in /sys/block/sd*/queue/scheduler;do echo deadline > $i;done echo never > /sys/kernel/mm/transparent_hugepage/enabled 一般不建议直接修改/boot/grub/grub Update/delete操作后,数据库不会自动释放这些空间,这些垃圾空间的回收方 式: 1)Vacuum 2)Vacuum full 3)REORGANIZE • 不进行垃圾空间回收的影响 o 垃圾空间浪费存储空间 o 垃圾空间影响查询性能 注:delete all用truncate代替,truncate无需回收垃圾空间 垃圾空间回收 Vacuum:标记垃圾空间为可再利用 /share/postgresql/contrib/gp_workfile_mgr.sql 临时空间的监控和管理 GPDB 支持的Join算法主要有: – Hash Join – Nestloop join(非等值关联) – Merge join(排序关联) 大多数关联都是Hash关联,关联是小表被Hash到内存中,如果涉及数据表规模较大,内存不足时, GPDB将会生成临时文件,这些档会放0 码力 | 41 页 | 1.42 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台Presser,Data Warehousing with Greenplum:Open Source Massively Parallel Data Analytics(美国加利福尼亚州塞瓦斯托波尔:O'Reilly Media,2017年),71-76。 2.同上,71-76。 3.同上,71-76。 4.同上,71-76。 pivotal.io/cn 白皮书 8 © Copyright Greenplum 5 中,Workload Manager 的功能有所增强,提高了规则创建的可自定义程度,并改进了监控查询活动及其 所用资源的方式。它可在查询运行过程中监控并检测内存、CPU 和磁盘 I/O 偏差。随后,Workload Manager 会在查询使 用的某项资源超过已定义阈值时记录日志,并可根据规则定义在必要时终止超过规定资源限额的查询。规则可按一天中的 时间和一周中的日期编写,这样各种不同类型的工作负载(例如 可用于在数据库中存储和查询半结构化数据。 Greenplum 中添加的全新 PostgreSQL 9.1 函数和 SQL 命令增强了对 XML 的支持。这些新数据类型及相关函数有助于打造 一个没有孤岛的环境,结构化、半结构化和非结构化数据均可在一个位置进行存储和分析。其他功能还有 dblink,这是一 个用于与其他数据库(无论在同一数据库主机还是远程主机上)建立连接的新模块。Pivotal Greenplum 支持数据库用户0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum备份恢复浅析Greenplum数据备份恢复: 1. 数据量较大 2. 不能完全使用Xlog日志备份 3. 需要保证数据完整性和一致性 2017 年象行中国(杭州 站)第一期 Greenplum提供了: 1. 非并行备份和恢复: --pg_dump和pg_dumpall(pg_restore) --copy、psql 2. 并行备份和恢复 --gpcrondump(gpdbrestore) 2017 年象行中国(杭州 备份config文件、清理旧备份集以及VACCUM等 2017 年象行中国(杭州 站)第一期 gp_dump具体实现 2017 年象行中国(杭州 站)第一期 非并行数据恢复 如果恢复前后的数据库节点个数不同,则推荐使用非并行数据恢复,不过需要 保证备份集完整,而且都位于master所在的机器上,具体执行步骤如下 1.createdb database_name 2.psql database_name0 码力 | 17 页 | 1.29 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密业务审计 System Admin • 管理集群 • 数据备份恢复 管理模式 GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 GPDB为单独数据库软件 • 非一体机 • 缺少对硬件和系统的控制 潜在风险(一) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 需要登录到系统进行运维 • 可以访问数据库二进制文件 知识产权保护 • 审计要求 用户数据存在直接暴露的风险 • 非部门员工运维(原厂,主机厂或者合作伙伴) • 事后审计难度很大 • 服务器数据被盗(托管或云部署) 用户的问题 现有解决方案 基于操作的系统的硬盘加密 • 只能防范服务器硬盘被盗 • 对运维安全无能为力 基于pgcypto的加密 • 可以满足数据安全要求 • 非原生方案 • 问题很多 基于pgcypto的数据加密方案0 码力 | 48 页 | 10.19 MB | 1 年前3
PostgreSQL和Greenplum 数据库故障排查微信号:laohouzi999 2.日志的配置 2018年PostgreSQL中国技术大会 微信号:laohouzi999 -bash-4.1$ cat postgresql.conf |egrep -i "Log_directory|Log_statement|Session_preload_libraries|Log_rotation|Log_line_prefix|logging_collector|log_filen 'dev.domain.org' # Specify a host name instead of an IP 修改端口 -bash-4.1$ cat postgresql.conf |grep -i port #port = 5432 # (change requires restart) 2018年PostgreSQL中国技术大会 连接方式(type) 共有三种:local、host、hostssl、hostnossl local使用本地unix套接字 host使用TCP/IP连接(包括SSL和非SSL) “IPv4地址”使用IPv4方式 hostssl只能使用SSL TCP/IP连接 hostnossl不能使用SSL TCP/IP连接 数据库(database) 声明允许访问的数据库,多个数据库,库名0 码力 | 84 页 | 12.61 MB | 1 年前3
共 32 条
- 1
- 2
- 3
- 4













