Greenplum Database 管理员指南 6.2.1.................................................................................... - 35 - 限制并发连接数量 .................................................................................................. ............................................................................ - 265 - CPU 主频与 Core 数量 .......................................................................................... - 265 - ........................................................................ - 344 - 为现有主机增加 Instance 数量 ......................................................................... - 344 - 关于 gpexpand 模式.0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 精粹文集数据库产 品支撑其 ODS 及各类集市应用。项目从 2013 年 6 月份开始到 2015 年底,生产环境已经由最初的一套集群发展到 10 多套, 装机数量也 从最初的 50 台发展到现在的数百台。短短两年半时间, 服务器数量、 集群数量、支撑的应用数量都飞速增长。 Big Date2.indd 20 16-11-22 下午3:38 Greenplum 精粹文集 21 Greenplum indd 28 16-11-22 下午3:38 Greenplum 精粹文集 29 四、Greenplum 实施经验谈 近两年,国内的大数据市场逐渐成熟,有真实的大数据处理需求的企 业数量呈现爆炸性的增长,从传统的数据库产品往 MPP 数据库转型 的增长势头十分迅猛。Greenplum 作为 MPP 产品的领头羊,具有较 低的学习成本,只要学习过 SQL,懂数据库的应用开发,学会使用 DBA 并不是一件 很困难的事,成功转成 Greenplum DBA 的工程师越来越多。 现在企业客户中搭建的 Greenplum 集群服务器数量是越来越大,在电 信行业和银行业,搭建 50 台服务器以上的 Greenplum 集群越来越多。 而集群服务器数量越多也就代表故障发生率越高。作为 Greenplum 的 DBA 和运维人员,不单只关注 Greenplum 本身,还要关注集群中各 硬件的状0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商创建好数据仓库之后怎么连接到UDW? UDW⽀持从mysql导⼊数据吗? HDFS/Hive与UDW之间可以导⼊导出数据吗? UDW中怎么kill掉正在执⾏的SQL语句? 如何通过外⽹访问UDW? 节点扩容时数量有没有什么限制? 数据仓库价格 数据仓库价格 ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 5/206 概览 概览 产品架构 探索”,然后点击“创建数据仓库”。 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 10/206 2.选择计算节点机型、计算节点数量以及付费⽅式。 其中可选的机型配置有: 机型 机型 名称 名称 配置 配置 存储密集型 ds1.large 4核 24G 2000G(SATA) 存储密集型 ds1.6xlarge 24核 144G 函数接受两个数组作为输⼊, 第⼀个数组的元素会被⽤作键值对的键, ⽽第⼆个数组的元素则会被⽤作键值对的值。 Json处理函数 处理函数 json_array_length(json) 返回最外层的 JSON 数组的元素数量。例如: UDW中Json类型 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 146/206 json_extract_path(from_json0 码力 | 206 页 | 5.35 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 GreenplumServices、Microsoft Azure 和 Google 云平台上运行,也可以运行在国内云平台上,如阿里云、 腾讯云等,只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系列部署选项,群集 便会立即启动运行,可供客户使用,国内外有相当数量的客户已选择云上 Greenplum。 图 2:Greenplum 不受限于基础架构的软件架构 完全兼容欧拉开源操作系统的 MADlib(可用 SQL 进行机器学习、深度学习和图分析),它支持高并行 和基于 GPU 的深度学习模型训练,内置于集群硬件中的 GPU,能帮助 Greenplum 6 的用户获得超过 CPU 2 个数量 级的性能加速,尤其对于可预测的分析用例和图像识别,这些功能将展现奇效。支持在 Apache Solr 数据库内实施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 6新特性:
在线扩容工具GPexpand剖析在Greenplum 5和之前的版本里会将所有的表改成随机分布,然后再ALTER成按列 分布 ▪ Greenplum 6里引入了numsegments ▪ Numsegments描述了该表连续分布的segment数量,默认与集群大小一致。对每个 表执行操作时也会按照numsegment值分配Gang ▪ 增加新节点后,对每个表做EXPAND后该值会随着改成新集群的大小 改进与实现 改进与实现 • EXPAND每个表 不需要将表改成随机分布,单表查询可以做优化 – 对于Join查询,如果分布状态相同的情况下,可以被优化 改进与实现 • 减少重分布数据移动量 – Greenplum 5及之前版本采用取模分布 – 节点数量发生变化后重新计算取模,移动数据量大 – 不仅存在新旧节点间的移动,旧节点之间也要移动 改进与实现 • 减少重分布数据移动量 – Jump Consistent Hash ▪ 均匀性:通过概率做到均匀分布0 码力 | 37 页 | 1.12 MB | 1 年前3
Greenplum 分布式数据库内核揭秘(slice1; segments: 3) Hash Key: brand -> Seq Scan on sales 一阶段聚集 l 我们需要对所有数据进行重分布,网络开销昂贵 l 若分组数量远小于集群节点数量,则会造成严重的计算倾斜 Confidential │ ©2021 VMware, Inc. 23 Multi-Stage Aggregate postgres=# explain (costs0 码力 | 31 页 | 3.95 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台Amazon Web Services、Microsoft Azure 和 Google 云平台上运行,并且同时支持自带使用授权 (BYOL) 配置和以小时为单位的按需配置。只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系 列部署选项,群集便会立即启动运行,可供客户使用。 图 2:Pivotal Greenplum 5:不受限于基础架构的软件架构。 不受限于基础架构 裸机 以生成不相关的计划,这种计划只需查询一次。随后,系统将中间结果与主表结合,生成符合用户条件的结果集。借助上 述及其他优化方法,经过 GPORCA 优化的 SQL 查询可实现 10 倍甚至更大幅度的速度提升。但是,也有其他一些查询(尽 管数量不多)尚且无法通过 GPORCA 实现性能提升。随着 GPORCA 的功能逐渐增多,传统查询优化器能够在性能上胜出 的情况将变得极为罕见。4 Greenplum资源组和Workload Manager0 码力 | 9 页 | 690.33 KB | 1 年前3
Pivotal Greenplum 最佳实践分享• 表关联时,一般不需要建索引,如果where条件的筛选性很强,建立索引可以让系统性能提升 • 对于大数据类系统,应避免使用PK,UI,FK,唯一性约束或参考性检查将导致性能大幅下降; • 大数量更新时,应先删除索引,更新/加载数据后再重建索引,或者采用分区交换降低对目标表的影响 临时空间的监控和管理 临时空间被无限制使用,可能导致系统空间撑爆,为了避免这种情况,建议设置以下参数 系统运行缓慢 – 其它异常 OOM-解决办法 优化查询以减少内存的消耗 在资源队列中降低查询的并发数 降低GP集群中单节点的Segment Instance数量 增加机器的内存 检查gp_vmem_protect_limit 参数, 确保其不要超过安全的最大值 在会话层面降低statement_mem 参数的设定值 在数据库0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum 排序算法77 79 . . . 1 6 输 出 缓 冲 区 输 入 缓 冲 区 6 7 22 22 7 6 10 10 30 ● 问题三:合并阶段,如何减少合并顺串过程中磁盘的读取的顺串数量。 归并排序的三个问题 31 ● 多路归并排序 32 ● 以两路归并排序为例,需要使用4个文件分别作为输入和输出文件来存储顺串, 两路归并排序需要文件中的顺串数呈现均匀的分布 多路归并排序0 码力 | 52 页 | 2.05 MB | 1 年前3
Greenplum机器学习⼯具集和案例有了了更更深⼊入的了了解,制定相应的营 销策略略 X 不不能⾼高效监测可疑Session ✓ 建立了可疑Session实时评分体系 X 考虑转换到Teradata ✓ 决定增加Greenplum Cluster数量 案例例优化总结 2017.thegiac.com Pivotal Greenplum: 开源⼤大数据 ⾼高级分析平台0 码力 | 58 页 | 1.97 MB | 1 年前3
共 12 条
- 1
- 2













