Greenplum 精粹文集等多种技术来提供计算性能;Mapreuce 需要开发人 员自己实现。 另外,Mapreduce 在整个 MAP->Shuffle->Reduce 过程中通过文件 来交换数据,效率很低,MapReduce 要求每个步骤间的数据都要序列 化到磁盘,这意味着 MapReduce 作业的 I/O 成本很高,导致交互分 析和迭代算法开销很大,MPP 数据库采用 Pipline 方式在内存数据流 中处理数据,效率比文件方式高很多。 服务器是数据的临时存放区,由于 Greenplum 服务器并行加载 的特点,数据可以直接通过网络从 ETL 服务器导入到 Greenplum 计 算节点,所以 ETL 服务器网络和磁盘 IO 的性能直接关系到数据加载 和卸载的性能,官方的测试数据 16 台计算节点 Greenplum 集群, 加载性能可以达到 16TB/ 小时。 ETL 服务器推荐采用的硬件规格:两块万兆网卡(一般多为单网卡双 网口),1 块千兆网卡用于带外管理,内存 rule 等表做关联。 关于计算倾斜,基本上 2 个思路: 1) 执行计划错误,尝试收集统计信息,尝试修改某些执行计划相关 的参数,以干涉执行计划。 2) 执行计划看起来没有什么不正常,但某些步骤的中间结果出现严 重倾斜的重分布。建议学会重写 SQL,将原有逻辑拆开,用更复杂 的 SQL 逻辑换取低开销的执行计划。 Big Date2.indd 47 16-11-22 下午3:380 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台用的方法对总 体产品方向产生影响,而这又会加快产品创新。 客户能够在群集中的一组初始服务器上部署 Pivotal Greenplum,并能在数据存储和用户需求增加时扩充配置中的服务器数 量,且无需卸载再重新加载数据。随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Pivotal Greenplum 目前可在 Amazon Web Services、Microsoft Azure 性能。GPORCA 的强大之处在于 能够以并行方式针对提交的 SQL 语句计算大量可能的查询计划。为了生成最快的计划,GPORCA 会计算数千种备选查询 执行计划,并根据成本做出决策。它还能免去不必要的剖析步骤,从而缩短优化时间。与传统查询优化器相比,GPORCA 可以计算更多备选计划,因此能够优化更多查询。3 现代数据分析和商业智能 (BI) 生成的 SQL 查询往往带有相关子查询,内部子查询需要外部查询的相关知识。GPORCA0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum Database 管理员指南 6.2.1.............................................................................. - 68 - 使用资源队列做资源管理的步骤 ............................................................................ - 71 - 配置资源队列管理资源 .. .................................................................................... - 364 - 小版本升级步骤 .................................................................................................. SEGMENT_DATA_DIRECTORY/postgresql.conf 文件中: max_connections=500 max_prepared_transactions=100 修改最大连接数的步骤 1. 通过 gpstate 命令确认数据库状态无异常,如: $ gpstate –e $ gpstate $ gpstate –f 2. 使用 gpconfig 命令修改参数值:0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 排序算法Outline 6 ● 冒泡排序 ● 插入排序 ● 快速排序 ● 堆排序 ● 基数排序 内排序算法 7 快速排序是最常用的排序算法,由Tony Hoare在1959年发明。 快速排序算法的三个步骤: ● 挑选基准值:从数列中挑选出一个基准元素,称为pivot ● 分割:重新排序数组,所有比基准元素小的元素排放到基准元素之前;所有比基 准元素大的元素排放到基准元素之后。分割完成后,我们完成了对基准元素的 堆是一种近似完全二叉树的结构,最大值堆要求每个子节点的键值总是小于父 节点。最小值堆要求每个子节点的键值总是大于父节点。 堆排序算法 ● 步骤1:建立最大值堆,最大元素在堆顶 ● 步骤2:重复将堆顶元组移除并插入到排序数组,更新堆使其保持堆的性质 ● 步骤3:当堆的元素个数为零时,数组排序完毕 堆排序 11 ● 建堆 堆排序 9 5 8 1 3 6 2 1 2 5 9 8 3 bool randomAccess 排序后的元组是否需要随机访问 bool bounded 是否是TopK查询 int64 bound TopK查询中K的值 bool sort_Done 排序步骤是否完成 GenericTupStore* tuplesortstate 根据排序算法类型,指向Tuplesortstate 或者Tuplesortstate_mk bool delayEagerFree0 码力 | 52 页 | 2.05 MB | 1 年前3
Greenplum备份恢复浅析年象行中国(杭州 站)第一期 gpcrondump具体实现(1/2) 2017 年象行中国(杭州 站)第一期 gpcrondump具体实现(2/2) gpcrondump实际是对gp_dump的封装,具体步骤如下: 1. 读取参数,检测合理性 2. master执行对pg_class加锁操作 3. 封装并执行gp_dump命令 4. 检测每个segment备份状态 5. 其他操作,例如备份全局对象(角色和表空间)、 gp_dump具体实现 2017 年象行中国(杭州 站)第一期 非并行数据恢复 如果恢复前后的数据库节点个数不同,则推荐使用非并行数据恢复,不过需要 保证备份集完整,而且都位于master所在的机器上,具体执行步骤如下 1.createdb database_name 2.psql database_name -f /gpdb/backups/gp_dump_1_1_20120714 3.$ psql database_name0 码力 | 17 页 | 1.29 MB | 1 年前3
Greenplum机器学习⼯具集和案例助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测 模型不不够精准,需 要更更好的邮件营销 策略略 ● 现有数据分析流程 繁琐,速度慢,有 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公 司 ● 简化Data 流程 ● 在Madlib上重新建 模和预测 ● 实现流程全⾃自动化0 码力 | 58 页 | 1.97 MB | 1 年前3
PostgreSQL和Greenplum 数据库故障排查表示内核允许分配超过所有物理内存和交换空间总和的 内存 2018年PostgreSQL中国技术大会 微信号:laohouzi999 2018年PostgreSQL中国技术大会 微信号:laohouzi999 5.故障排查步骤总结 2018年PostgreSQL中国技术大会 微信号:laohouzi999 2018年PostgreSQL中国技术大会 微信号:laohouzi999 2018年PostgreSQL中国技术大会0 码力 | 84 页 | 12.61 MB | 1 年前3
Pivotal Greenplum 最佳实践分享的笛卡尔积 有些情況下,可能是由于查询计划问题导致的: – ExplainSQL,如何怀疑是查询计划有问题,可以Analyze所有相关的表,然后再执行; – 查看执行计划的各个步骤是否符合预期 问题定位方法 其它辅助定位方法和工具: 获取某一时段正在执行的SQL gpperfmon=# select * from queries_history0 码力 | 41 页 | 1.42 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 GreenplumThere is NO warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. d. 测试步骤 1. 分别选取不同的 OS 镜像创建三台 ARM 实例并搭建 Greenplum 6.7.0 三节点集群环境。 2. 在 Master 应用 TPC-DS tools, 生成 5GB 测试数据,并导入0 码力 | 17 页 | 2.04 MB | 1 年前3
共 9 条
- 1













