Greenplum Database 管理员指南 6.2.1提供了避免单点故障的部署选项。本节讲述 GP 的冗余组件。 Instance 镜像 Master 镜像 网络层冗余 Instance 镜像 在部署 GP 系统时,可以选择配置 Mirror,如果初始化时没有配置 Mirror,后 期也可以再次添加 Mirror,当然,如果要删除已有的 Mirror 也是可以的,不过需要 手动操作,因为 主机上呢?从理论的角度来说,答案是肯定的,因为 GP 数据库的集群概念 是虚拟的,并没有严格限制不同角色必须分离,但,对于生产环境来说,除非可以 100% 确保计算节点机器的资源不会被耗尽,否则,都应该尽最大可能避免 Master 和 Standby 设置到 Instance 主机上,因为,这种模式下,一旦系统在处理负载很高的 任务,Master 将很难获得足够的资源,其响应会变慢,稳定性会下降。从两一个角度 录如何被分散到不同的 Instance 上。GP 提供了 3 种分布策略:HASH 分布、随机分 布、复制分布。 HASH 分布 使用 HASH 分布时,一个或数个(强烈建议避免选多个)Table Column 可以被用 作 Distribution Key(简称 DK)。通过 DK 计算出一个 HASH 值用来决定每条记录 分散到哪个 Instance 上。相同 Key 值的记录会0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商139 141 142 146 152 152 163 177 177 183 190 190 191 192 udw优化指南 表膨胀 表膨胀 表膨胀的原因 如何避免表膨胀 UDW中 中Json类型 类型 Json相关操作 Json操作举例 Json相关函数 Json创建函数 Json处理函数 接⼊第三⽅ 接⼊第三⽅ BI ⼯具 ⼯具 ⼀、 UDW 区、可以通过分区很⽅便的删除最早的⽉份分区、把数据加载到最新的⽉份分区。 把数据分为⼏个均等的部分:通过⼀个分区标准把⼀个⼤表的数据划分为均等的分区,这样可以等倍的提⾼查询性能。 使⽤分区的时候请避免建⽴过多的分区,创建过多的分区可能会影响管理和维护作业,例如: 清理⼯作,节点恢复,集群扩展,查看磁盘使⽤情况等。 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 6.3 加载数据分区表 加载数据分区表 在创建了分区表结构后,⽗表⾥⾯是没有数据的。数据⾃动地存储到最底层的⼦分区中。 如果记录不满⾜任何⼦分区表的要求,插⼊将会被拒绝,数据加载都会失败。要避免不合要求的记录在加载时被拒绝导致的失败,可以在定义分区结构时,创建⼀个默认分区(DEFAULT)。任 何不满⾜分区 CHECK 约束记录都会被加载到默认分区。 6.4 修改分区表 修改分区表 10 码力 | 206 页 | 5.35 MB | 1 年前3
Pivotal Greenplum 最佳实践分享GPDB最佳实践所推荐的对象管理要求是:一个数据库内对象不要超过10 0000个 最佳实践是出于对系统性能和稳定性因素建议对pg_class 所维护的对象数进行约束 减少对象数的方法: – 提高分区粒度 – 避免大范围使用列存储 pg_class对象数如果不进行约束,可能会产生以下问题: – gprecoverseg –F效率低,数据库实例修复如果增量同步失败,我们一般会建议使用gprecoverseg 系统元数据检查pg_checkcat等工具运行时间比较长 物理模型经验分享 物理模型对于系统性能有很大影响,因此需要我们特别关注。 以下来自于在某大型银行的使用经验: 行存储和列存储: • 避免过多使用列存储的原因是防止小档数过多。 • 列存储能够提升查询性能,对于更新和全字段类操作性能反而会下降 • 对于少数频繁查询的宽表,例如交易表、帐户表、客户表等采用列存储,其它表采用行存储 条件的筛选性很强,建立索引可以让系统性能提升 • 对于大数据类系统,应避免使用PK,UI,FK,唯一性约束或参考性检查将导致性能大幅下降; • 大数量更新时,应先删除索引,更新/加载数据后再重建索引,或者采用分区交换降低对目标表的影响 临时空间的监控和管理 临时空间被无限制使用,可能导致系统空间撑爆,为了避免这种情况,建议设置以下参数 – gp_workfile_compress_algorithm0 码力 | 41 页 | 1.42 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 11 白皮书 | 11 l 避免扫描和回收仅包含事务 frozen 元组的页面 l 避免 VACUUM 没有必要的索引扫描 l 避免无用的堆截断尝试并在 VACUUM 期间采取独占锁定 l 提高 VACUUM 删除尾随空堆页面的速度 l 可以选择使用 SKIP_LOCKED Coordinator(Master),如果 Coordinator(Master)出现故障, 将自动把备用节点进行替换,把这一流程自动化,减少人工的干预,这一功能不但将解决现有用户的使用痛点,同时 也大大增加了系统高可用性,避免手工操作,极大方便了系统运维,而这对于运行关键业务应用十分重要。 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 个,隔离级别用例 240 个,失败 1 个(疑似虚机资源问题)。其它功能测试若干,手动验证用例 2 个(SSL 工具版本问题),管理工具脚 本用例 455 个。整体质量良好。 测试活动 tempest 集成测试 核心引擎 全部 534 用例通过 隔离级别 240 用例失败 1 个 其它 手动验证用例 2 个 管理工具脚本 全部 455 用例通过 详尽报告参看 https://gitee0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 编译安装和调试/data/master/gpseg-1/pg_log/) 查看日志。 这里面有2种类型的日志: ○ startup.log ○ gpdb-.csv 2.2.3 初始化 master 数据库失败 手动执行initdb查看详细错误信息,然后分析具体错误信息采取相应错误。不同的版本可 能参数不同,可以通过在 gpinitsystem 脚本中找到完整的命令。 $ initdb -E UNICODE 0kB --backend_output=/data/master/gpseg-1.initdb 2.2.4 master 起不来 使用下面命令,手动启动master观看日志是否有问题。下面使用 Utility 模式启动master ,仅仅仅仅允许utility 模式连接。 $ postgres -D /data/master/gpseg-1 0 -m 2.2.5 启动Segment出错 如果启动 segment 时出错,并且看不到具体错误信息(通常由于错误信息被重定向到 /dev/null 了),则可以尝试手动启动 segment。 手动启动segment的命令参加下面,需要根据自己的环境修改某些路径或者参数: export LD_LIBRARY_PATH=/home/gpadmin/build/gpdb0 码力 | 15 页 | 2.07 MB | 1 年前3
Greenplum机器学习⼯具集和案例助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测 模型不不够精准,需 要更更好的邮件营销 策略略 ● 现有数据分析流程 繁琐,速度慢,有 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公 司 ● 简化Data 流程 ● 在Madlib上重新建 模和预测 ● 实现流程全⾃自动化 数据和技术预览 2017.thegiac.com 数据整理理 数据准备 信息价值和证据权 重 成对相关性 删除⾼高度相关变量量 逻辑回归 计算 KS 分值 模型验证 ⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 特征⽣生成 验证 预测 信息价值 对数据集的探索有限 ✓ 在Greenplum里充分探索了数据集 X 对Pivotal产品线不不熟悉 ✓ 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动 化 X 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 精粹文集通常利用这些技术大幅提高数据的检索效率。 ·MAShuffle 效率对比 Hadoop Shuffle 对比 MPP 计算中的重分布 -- 由于 Hadoop 数据 与节点的无关性,Shuffle 是基本避免不了的;而 MPP 数据库对于 相同 Hash 分布数据不需要重分布,节省大量网络和 CPU 消耗。 Mapreduce 没有统计信息,不能做基于 cost-base 的优化;MPP 数据库可以利 SQL-On-Hadoop 不擅长于交互式(interactive)的 Ad-hoc 查询, 大多通过预关联的方式来规避这个问题;另外,在并发处理方面的能 力较弱。高并发场景下,需要控制计算请求的并发度,避免资源过载 导致的稳定性问题和性能下降问题。 3) 架构灵活性的对比 前面提到,为保证数据的高性能计算,MPP 数据库节点和数据之 间是紧耦合的,相反,Hadoop 的节点和数据是没有耦合关系的。 故障,我们可以迅速采取相应的修复措施,如果底层 RAID 没有损坏, 在单台机器数据量过大比如接近 10T 的情况下,我们可以直接将磁 盘插入到灾备机,由于 RAID 信息写在磁盘上,对调磁盘后,所有 数据信息仍然保留,这样就能避免数据同步带来的性能损耗,这种 方式要求集群所有机器采用相同规格的 RAID 卡。 以下是我们新一代一体机硬件和机柜配置,大家可以参考: Big Date2.indd 27 16-11-220 码力 | 64 页 | 2.73 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Greenplum使用规范 • 平时使用规范 Ø避免高频率的insert、update操作 Ø避免频繁执行高内存消耗的会话 Ø避免出现死锁 Ø可以在适当的时候执行 vaccum 操作 Ø避免直接在Greenplum执行消耗session会话的操作 Ø尽量不创建索引 • 上线与调度规范 Ø上线的程序,必须要经过测试,才可以生产使用 Ø调度程序需考虑每个任务的前后关系,时间富裕 Ø避免因为过于追求并行度,对多个任务造成相互影响0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 分布式数据库内核揭秘随机分布则采用随机的方式将数据存储到不同的节点。当不确定一张表的哈希分布键,或者是不存 在合理的避免数据倾斜的分布键时,即可采用随机分布的方式。 随机分布与复制分布 复制分布则表示整张表在每个节点上都有一份完整的拷贝,假设我们有 100 个节点,复制表则会将 数据保存 100 份。复制表可避免生成分布式查询计划,而是生成本地计划,从而避免数据在集群的 不同节点间移动。 Confidential │ ©2021 VMware0 码力 | 31 页 | 3.95 MB | 1 年前3
Greenplum 6新特性:
在线扩容工具GPexpand剖析• 数据重分布 – gpexpand • 清理 – gpexpand -c GPExpand简介与具体用法 • 增加新节点 – gpexpand –i 配置文件(gpexpand生成或手动编辑) sdw:sdw:25438:/data/expand1/primary:9:3:p sdw:sdw:25439:/data/expand1/mirror:10:3:m GPExpand简介与具体用法0 码力 | 37 页 | 1.12 MB | 1 年前3
共 16 条
- 1
- 2













