快速迭代 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 介绍

的开源贡献列表中全球排名第四左右。采用开源方案，不担心后门问题，不担心被锁定。开源还可以构建更好的生态。 ● 采用敏捷软件开发方法开发的平台：Greenplum 采用敏捷方法开发，实现了快速迭代、持续发布和质量内建。2017 年 Greenplum 发布了 10 个版本，以前发布一个版本需要 1 个月左右，现在只需要十几个小时。 ● 具备企业级稳定性的平台：Greenplum 区贡献者包括阿里云、中移动等大公司，也有诸多中小公司和数据库爱好者。开源之后，Greenplum 把敏捷软件开发方法学引入到分布式数据库的开发中，通过使用站立会议、回顾会议、结对编程、持续集成、测试驱动、单周迭代等敏捷方法建立了高效的快速反馈系统，大大提高了产品的质量和客户的满意度。Greenplum 5.0 是开源之后发布的第一个稳定版本，大约保持 1 个半月一个版本的发布速度。Greenplum 主干分支（master）开发非常活跃，众多社区

0 码力 | 3 页 | 220.42 KB | 1 年前
3
Greenplum机器学习⼯具集和案例

、PXF、外部表机制 • 完善的标准支持：SQL、JDBC、ODBC • 集成数据平台：BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码，持续大力投入 • 敏捷方法学：快速迭代、持续发布、质量内建 • 企业级稳定性，成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X：各种语言实现自定义函数（存储过程） C API (Greenplum, PostgreSQL, HAWQ) 底层抽象层 (数组操作、类型转换、数值计算库等) 数据库内建函数⽤用户接⼝口⾼高层抽象层 (迭代控制器器) 内循环函数 (实现机器器学习逻辑) Python SQL C++ MADlib 架构 2017.thegiac.com • 是一种由搜索引擎根据网页之间 GPDB 中花 58 秒计算 ~200 个变量量的IV 13.7x/变量量建模 ● < 50 个变量量，运⾏行行⼀一次逻辑回归迭代需要 ~30 分钟 ● 376 个变量量，运⾏行行⼀一次逻辑回归迭代需要 ~1.86 分钟 ~16x/迭代⼯工作流程优化 2017.thegiac.com 原始模型改良后的模型 ● 模型精确度 = 99.7% ●

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum 精粹文集

Greenplum 不能做什么？ Greenplum 最大的特点总结就一句话：基于低成本的开放平台基础上提供强大的并行数据计算性能和海量数据管理能力。这个能力主要指的是并行计算能力，是对大任务、复杂任务的快速高效计算，但如果你指望 MPP 并行数据库能够像 OLTP 数据库一样，在极短的时间处理大量的并发小任务，这个并非 MPP 数据库所长。请牢记，并行和并发是两个完全不同的概念，MPP 数据库是为了解决大问题而设计的 MAP->Shuffle->Reduce 过程中通过文件来交换数据，效率很低，MapReduce 要求每个步骤间的数据都要序列化到磁盘，这意味着 MapReduce 作业的 I/O 成本很高，导致交互分析和迭代算法开销很大，MPP 数据库采用 Pipline 方式在内存数据流中处理数据，效率比文件方式高很多。总结以上几点，MPP 数据库在计算并行度、计算算法上比 Hadoop 更加 SMART，效率 Pivotal 成立于 2013 年 4 月，由 EMC、VMware 和 GE 共同投资成立。公司总部位于美国硅谷，专注于下一代企业级云计算与大数据基础平台，以及下一代应用程序运行框架支撑实现，在敏捷与快速应用程序开发、数据科学、云计算、开放源代码软件、大规模并行处理和实时数据系统领域颇有建树。2016 年 5 月，又获得了来自福特和微软的共同投资，目前公司整体估值达到 28 亿美金。作为

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

MPP ：大规模并行处理算子：执行计划中的运算操作背景简介多年前，编者翻译了 GP4.2.2 的 AdminGuide，如今，GP 已经历经了无数个版本更新和迭代，编者也有了更多的感悟，放眼 GP 的中文资料，为之动容，就想着再为 GP 的发展壮大多做那么一点点贡献，挤出一点时间，重新梳理和打磨这个文档，并完全根据最新的版本特性进行重新整理，希望能对中文爱好者提供一些帮助，在编写过程对聚集索引字段的单条件查询的性能会更高效。在 GP 中使用聚集索引对于大表来说，使用CLUSTER(该命令只可以作用于Heap表)命令来排序物理记录以创建聚集索引可能需要耗费极长的时间。要快速达到同样的效果，可以通过创建一张中间表的方式来手动排序数据，由于CLUSTER命令只能用于Heap表，对于AO表，要达到聚集索引的效果，也只能通过数据排序插入的方式实现。例如： =# CREATE Bitmap索引可以提升ad-hoc类型查询的性能。对于在WHERE子句中使用AND和 OR的多条件查询，可以直接在位图索引上进行位图运算，而不用先转换为tuple ID，性能可以得到很大的提升。当需要返回的记录数很小时，查询可以快速得到结果，而不需要全表扫描。注意：任何索引都不是万能的，这里说了很多Bitmap索引的优势，不等于就可以随意的创建，适用有条件，选择需谨慎。此处所述的100~10万之间的DISTINCT值的数量

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

高效处理相关子查询超过8年的投资，多位博士的长期贡献基于Cascades / Volcano框架, Goetz Graefe 优化分布式大数据系统中特别复杂的查询 18 Madlib: 迭代并行模型训练 Master model = init(…) WHILE model not converged model = SELECT model.aggregation(…)

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

16 38 38 39 39 39 40 43 44 45 46 47 ⽬录⽬录⽬录⽬录概览概览产品架构产品架构云数据仓库产品架构⾼可⽤快速上⼿快速上⼿⼀、创建数据仓库⼆、连接数据仓库操作指南操作指南关闭数据仓库启动数据仓库重启数据仓库查看数据仓库详情扩容数据仓库更改数据仓库密码续费删除数据仓库节点扩容时数量有没有什么限制？数据仓库价格数据仓库价格⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 5/206 概览概览产品架构快速上⼿操作指南访问UDW数据仓库数据导⼊开发指南 udw优化指南表膨胀 UDW中Json类型接⼊第三⽅ BI ⼯具 UDW 使⽤案例 Pxf 扩展功能迁移数据使⽤ pg_dump Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 9/206 快速上⼿快速上⼿⼀、创建数据仓库⼀、创建数据仓库 1.选择UDW标签可以跳转到UDW操作界⾯（如果没有这个标签，请联系客服申请开通），点击欢迎⻚的“开始探索”，然后点击“创建数据仓库”。快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum 排序算法

Greenplum TupleSort ● 排序在Greenplum中的应用 Outline 6 ● 冒泡排序 ● 插入排序 ● 快速排序 ● 堆排序 ● 基数排序内排序算法 7 快速排序是最常用的排序算法，由Tony Hoare在1959年发明。快速排序算法的三个步骤： ● 挑选基准值：从数列中挑选出一个基准元素，称为pivot ● 分割：重新排序数组，所有比基准元素小的元素排放到基准元素之前；所有比基递归排序子序列：递归地将小于基准元素的子序列和大于基准元素的子序列分别进行排序快速排序 8 ● 快速排序算法每次选取一个基准元素，将比基准元素小的排到基准元素左边，比基准元素大的排到基准元素的右边，从而将待排序数组分成两个子集。快速排序 6 8 3 2 7 1 7 9 8 7 7 9 6 3 2 1 分治法 9 快速排序 ● 快速排序算法： 10 堆排序是最常用的排序算法，由J.Williams在1964年发明。 7 4 8 1 7 4 8 1 4 7 8 待排序数据分割阶段合并阶段 22 ● 问题一：分割阶段只需要顺序扫描一次外存，最简单的策略是读取外存数据，加载到内存，当内存用满时，执行快速排序等内排序算法，生成一个顺串。之后清空内存，继续读取外存数据，如此反复，直到所有外存数据处理完毕。该算法生成的每一个顺串的大小都不会超过内存的大小，而顺串越小，合并阶段的代价就越高，需要读取

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

• 竞争对手 • Teradata, Oracle • 数据规模 • 1万亿行事实数据表，每天增加 3TB • 硬件 • 40节点的Sun数据仓库设备 • 优势 • 可以通过控制支持快速膨胀的数据集 “Greenplum将成为我们不可或缺的合作伙伴，因为我们需要不断更新数据操作方式，使用户和广告商通过我们的工作网络中获得更好的印象。” - FIM受众网络技术和运营部门的产品执行副总裁已有方案 • Oracle • 数据规模 • 20TB，每天增长400GB • 优势 • 将响应时间缩短90% “借助运行Greenplum数据引擎的Sun数据仓库设备，Reliance可以在快速发展，用户需求不断增加的数据环境中达到预期的高度响应能力。” - Reliance 的副总裁和主管（决策支持系统）Raj Joshi 25 响应时间 (分) 以前的数据库客户实例： PLDT 客户投产环境：客户11月份月度处理时，完成本项任务需要65小时。结论：如果采用DWA替代现有环境，获得超过80倍的性能提升。案例分享：阿里巴巴 • 业务用例 • 通过分析用户的网络点击日志，进行产品关联分析，让客户可以快速的找到相近产品 • Existing Solution • Oracle • Facts • 6台华为-赛门铁克T3500服务搭建数据库阵列 • 每台T3500服务器可以自带24TB硬盘

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

社区规模迅速扩大。该社区的成员为核心组件的开发贡献了力量，并且已经受益于 Pivotal 长久以来在市场上取得的成功。从 2017 年初开始，他们每个月发布一次 Greenplum 更新，使其保有快速而可靠的创新力。此次推出的 Greenplum 5 是一个功能齐全、动态的、创新型分析数据平台，其产品路线图规划健全且充满活力，无论是短期内还是未来长期时间里，都能满足客户的需求。支持多种云不受限于基础架构的数据平台 Sequence。通过在查询计划中放置这些 PartitionSelector，GPORCA 可以支持更复杂的模式，例如基于相等和范围谓词的分区选择，以及动态分区消除。7 Greenplum 5 中的 ANALYZE 命令使用更快速的 PostgreSQL 实施来收集表统计数据，从而针对堆积优化表和附加优化表提高其性能。系统会在单个查询中收集行示例，并在内存中执行每列统计数据的计算。而在过去，则会针对每列运行单独的查询。在

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Pivotal Greenplum 最佳实践分享

两个集群之间必须互相网络连通  集群之间无需ssh互信  源端与目标端对象名称可不一致  条件源端过滤，降低带条件场景的网络压力  源端可以是视图，自劢识别是否使用快速模式  命令可部署在可在集群外执行  自劢识别低速模式，快速模式和全速模式  可指定并发数(同时多张表传输)，可指定编码Encoding，解决特殊的乱码问题  命令简单易用——单命令无需部署，参数基本保持与gp

0 码力 | 41 页 | 1.42 MB | 1 年前
3

共 14 条前往

页

分类

语言

格式

Greenplum 介绍

Greenplum机器学习⼯具集和案例

Greenplum 精粹文集

Greenplum Database 管理员指南 6.2.1

Greenplum 6: 混合负载的理想数据平台

Greenplum数据仓库UDW - UCloud中立云计算服务商

Greenplum 排序算法

Greenplum 新一代数据管理和数据分析解决方案

Pivotal Greenplum 5：新一代数据平台

Pivotal Greenplum 最佳实践分享