Greenplum 精粹文集·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror 镜像保护机制 ·资源队列管理 ·WEB/Brower 监控 Big Date2.indd 7 16-11-22 下午3:38 8 3. Greenplum 的艺术 -- Parallel Everything 前 面 介 绍 了 Greenplum IO 吞吐上,在大规模数据处理时,IO 无法及时 feed 数据给到 CPU, CPU 资源处于 wait 空转状态,无法充分利用系统资源,导致 SQL 效 率低下: 一台内置 16 块 SAS 盘的 X86 服务器,每秒的 IO 数据扫描性能约在 2000MB/s 左右,可以想象,20 台这样的服务器构成的机群 IO 性能 是 40GB/s,这样超大的 IO 吞吐是传统的 Storage 难以达到的。 双网口)用于内部互连,1-2 块千兆网卡用于带外管理和接入客户网 络,内存 DDR4 64GB 以上(推荐 256GB), 硬盘 6 块(600GB 或 900GB 10K RPMSAS 盘,采用 RAID5 或者 RAID10,需要预留单独 的 hotspare 盘),CPU 2 路 8 核及以上(主频 2.5G HZ 以上),1 块 RAID 卡(要求 cache 大小 1GB 以上,并带有掉电保护功能) 3. 计算节点服务器0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1....................................................................................... - 18 - 管理与监控................................................................................................... .......................................................................................... - 57 - 监控资源组状态 ............................................................................................. ......................................................................................... - 379 - 监控与维护 ...............................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商⼀、创建数据仓库 ⼆、连接数据仓库 操作指南 操作指南 关闭数据仓库 启动数据仓库 重启数据仓库 查看数据仓库详情 扩容数据仓库 更改数据仓库密码 续费 删除数据仓库 查看操作⽇志 查看监控 ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 2/206 50 50 71 73 73 73 74 74 74 UCloud 优刻得 45/206 查看操作⽇志 查看操作⽇志 操作指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 46/206 查看监控 查看监控 操作指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 47/206 操作指南 Greenplum数据仓库 UDW Copyright 取值从1到9,⼀般选择5已经⾜够了。 压缩表的应⽤场景:业务上对表进⾏更新和删除操作⽐较少,⽤ truncate+delete 就可以实现业务逻辑。不经常对表进⾏加字段或修改字段类型,对 ao 表加字段⽐普通表慢很多。 创建⼀个使⽤ ZLIB 压缩的⾏压缩表: CREATE TABLE rowCompressTable( a int, b text ) WITH (appendonly=true,orientation=column0 码力 | 206 页 | 5.35 MB | 1 年前3
Pivotal Greenplum 最佳实践分享vacuum,例如设置定时作业,每周对所有系统表vacuum analyze一次 • 查询视图GP_TOOLKIT.GP_BLOAT_DIAG可监控垃圾空间的膨胀系数 • REINDEX:回收索引的垃圾空间 AGE监控和管理 PostgreSQL的MVCC事务语意依赖于比较事务ID(XID)的数值: 一条带有大于当前事务的XID的插入 XID的行版本是―属于未来的‖, XID(FrozenXID)与普通的XID进行区分。 FrozenXID总是被认为比任何普通 的XID旧。 GPDB中关闭了Autovacuum(GPDB 4.2.6 UPPER) Age的监控: xid_warn_limit:500000000(5亿),AGE大于5亿自动告警 xid_stop_limit: 1000000000, AGE大于10亿停止工作,等待vacuum执行 对于大数据类系统,应避免使用PK,UI,FK,唯一性约束或参考性检查将导致性能大幅下降; • 大数量更新时,应先删除索引,更新/加载数据后再重建索引,或者采用分区交换降低对目标表的影响 临时空间的监控和管理 临时空间被无限制使用,可能导致系统空间撑爆,为了避免这种情况,建议设置以下参数 – gp_workfile_compress_algorithm zlib,设0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议B和C是事务的参与者(participant) 24 两阶段提交与日志操作 写日志写日志 日志落盘 写日志 记录日志 日志落盘 记录日志 日志落盘 协调者 参与者 发送prepare消息 ready 发送commit/abort消息 ack 阶段2 阶段1 25 2PC同样可以应用在单机系统上 COMMIT PREPARED ● ROLLBACK PREPARED 30 问题 1:协调者向参与者发prepare之后,参与者完成prepare相应操作,在发送ready之前,会把日志 落盘。那参与者申请的锁会不会释放? postgres=# begin ; BEGIN postgres=*# update t1 set c1 = 14 where c1 =15 ; UPDATE 1 postgres=*# 0 码力 | 42 页 | 2.12 MB | 1 年前3
Brin Index主Greenplum 7中的理论与实现AoTable AppendOnly Table是一种紧凑的 数据格式,适用于较少进行 Update/Delete的场景 Tuple以紧凑的方式存储在变长 的Block中,所以Block在写入磁 盘后不能修改,只能向后追加新 的Block 为了实现并发Insert,每个AO表 逻辑上有128个AoSeg,每个事务 向一个特定的AoSeg追加数据 16 Confidential │ ©20210 码力 | 32 页 | 1.04 MB | 1 年前3
Greenplum备份恢复浅析[--redirect] 数据恢复(2/2) 2017 年象行中国(杭州 站)第一期 虽然并行备份和恢复大大提高了备份和恢复的速度,但是仍 然存在很多问题: 1. 大量数据需要落盘 2. 使用dbid作为备份文件命名规则,在主备切换或者 primary和mirror后会出现问题 3. 可能会出现各个segment数据不一致的情况 …... 并⾏备份恢复存在的问题 2017 0 码力 | 17 页 | 1.29 MB | 1 年前3
Greenplum机器学习⼯具集和案例MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测 模型不不够精准,需 要更更好的邮件营销 策略略 ● 现有数据分析流程 繁琐,速度慢,有 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公 司 ● 简化Data 流程 ● 在Madlib上重新建 模和预测 ● 实现流程全⾃自动化0 码力 | 58 页 | 1.97 MB | 1 年前3
Pivotal HVR meetup 20190816支持触发器捕获技术作为补充 基于数据库事务日志的变化数据捕获 9 • 避免人为错误 • 在迁移结束前校验数据 • 支持异构 异构平台间数据校验域修复 10 内置监控与报警 • 实时监控HVR进程 • 自动告警 • 与第三方企业监控平台集成 • 丰富的统计报表 LDAP authenticated user; if that’s not configured just OS 对于增量备份可以支持准实时的同步也可以支持延时同步 ➢ 同步软件不会对源库造成负载上升的问题 ➢ 同步中断后能够记录中断点,在下次同步时可以自动从中断点开始继续同步数据 ➢ 能够提供对同步组件的监控 ➢ 操作简单,运维效率高 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 15 Compare Products 参考:https://mp0 码力 | 31 页 | 2.19 MB | 1 年前3
Greenplum on Kubernetes
容器化MPP数据库升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性 容器化分布式应用程序公共问题 容器网络管理 容器资源管理 容器镜像管理 容器调度 容器监控及自 定义操作 容器存储管理 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性 Kubernetes 容器网络管理 容器资源管理 容器镜像管理 容器调度 容器监控及自 定义操作 容器存储管理 Kubernetes 101 Kubernetes 101 Master组件 Node组件 Kubernetes存储资源 PV ● PersistentVolume 无需Segment Rebalance ● Node失效 ○ Node节点上Master/Segment节点自动修复 Kubernetes 生态集成 ● 日志收集 ○ Fluentd ● 监控及Metrics收集 ○ Prometheus ● 可视化 ○ Grafana ● …... 总结 Greenplum → Kubernetes Native Database0 码力 | 33 页 | 1.93 MB | 1 年前3
共 14 条
- 1
- 2













