小程序 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum Database 管理员指南 6.2.1

，我们跟随着 Greenplum 的成长，见证了 Greenplum 从闭源到开源的成长历程，一路给 Greenplum 做各种补丁脚本，也看到了 Greenplum 的大幅进步，甚至我们以前的小技巧也不再需要，持续的进步，带来的是生态的蓬勃发展。 Greenplum Database 管理员指南 V6.2.1 版权所有：Esena(陈淼 +86 18616691889) 编写：陈淼 ................................................................................. - 39 - GP 的客户端应用程序 .............................................................................................. - 40 ..................................................................................... - 41 - DB 应用程序接口 ................................................................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

提供强大的并行数据计算性能和海量数据管理能力。这个能力主要指的是并行计算能力，是对大任务、复杂任务的快速高效计算，但如果你指望 MPP 并行数据库能够像 OLTP 数据库一样，在极短的时间处理大量的并发小任务，这个并非 MPP 数据库所长。请牢记，并行和并发是两个完全不同的概念，MPP 数据库是为了解决大问题而设计的并行计算技术，而不是大量的小问题的高并发请求。再通俗点说，Greenplum 没有统计信息，不能做基于 cost-base 的优化；MPP 数据库可以利用统计信息很好地进行并行计算优化。例如，MPP 对于不同分布的数据可以在计算中基于 Cost 动态决定最优执行路径，如采用重分布还是小表广播。 Big Date2.indd 13 16-11-22 下午3:38 14 ·Reduce 效率对比：对比于 MPP 数据库的 SQL 执行器 -executor，Mapreduce 技术支持；MPP 数据库可以基于 COST 来自动选择 Hash join、Merger join 和 Nestloop join，甚至可以在 Hash join 通过 COST 选择小表做 Hash，在 NestloopJoin 中选择 index 提高 join 性能等等。 MPP 数据库对于 Aggregation（聚合）提供 Multiple-agg、Group- agg、sort-agg

0 码力 | 64 页 | 2.73 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

“未来”的数据 —— 趋势分析 4 数据仓库体系架构业务数据与数据特点 • 现在的数据 —— OLTP Ø实时，在线系统，客户使用 Ø事务小，频率高，并发高 • 过去的数据 —— OLAP Ø非实时（T+1，或小时级），离线系统，分析决策 Ø事务大，频率相对小，并发低 • 未来的数据 —— 趋势分析 Ø非实时，离线+在线流系统，趋势分析 Ø算法分析，持续计算 5 数据仓库体系架构 OLAP场景举例 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系环境创建与部署 • 部署注意点 Ø 资源要充足（ETL，管理节点，数据节点，数据集市） Ø 万兆网络（网络环境对功能和性能的影响） Ø 节点规划 Ø 全量，id列增量，date列增量 Ø datax,csv,load,copy Ø 数据同步结果确认与显示 • 数据同步方式 Ø gpfdist+外部表： UMGW大表 Ø db_sync同步程序：底层库 + 同步逻辑 + Django界面 Ø 临时同步需求： datax , copy 29 Greenplum运维体系数据库数据传输与同步-db_sync 30 Greenplum运维体系

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险源文件源数据源数据源文件数据仓库和分析应用程序 Greenplum数据架构商用硬件集群分析数据市场企业数据仓库企业数据集合：主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 14 强大并且不断扩展的合作伙伴网络硬件供应商商务智能工具 15 服务供应商业内支持和认可行业奖励 “ Greenplum能够让企业在两个方面同时达到最满意的效果：供程序员使用的MapReduce以及供数据库管理使用的 SQL。” Monash Research 的Curt Monash 分析师褒奖 “ Greenplum正在通过新式技术来推动并行数据库的发展，从而满足互者开始的规模太小 • 在商用硬件上通过线性、经济的方式扩展 Greenplum数据引擎体系主机网络互连并行查询规划和调度区段服务器（处理和存储） SQL 查询和 MapReduce程序 MPP （海量并行处理） “完全不共享”体系 Greenplum体系：并行数据流 21 • 通用并行数据流引擎可以通过本地方式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完

0 码力 | 45 页 | 2.07 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

期间不会中断正在运行的所有查询；另外采用了 Jump Consistent Hash 的一致性哈希算法, 在数据重分布期间，每个旧节点仅移动出需要移动的数据到新节点上, 得益于创新的分布式死锁检测，对于大量小表做并行重分布性能提升非常明显。 Greenplum VACUUM 提升将在 Greenplum 7 中实现此功能，能够做到： 1 https://arxiv.org/pdf/2103 支持适用于数据挖掘和数据科学工作的最全面、最先进的分析程序包和扩展。Greenplum 还针对最受欢迎的 Python 和 R 语言算法库提供简单易用的安装程序，包括 Tensorflow、NumPy、SciPy、XGBoost、BeautifulSoup、lxml、Keras 和 PyMC3 等 Python 语言算法库和程序包和 BH、DBI、MASS、MCMCpack、Matri x、R2jags、R6、RColorBrewer、ROCR、RPostgreSQL、 Rcpp、RcppEigen、RobustRankAggreg 等 R 语言算法库和程序包。此外，Greenplum 还支持最新版 Apache MADlib（可用 SQL 进行机器学习、深度学习和图分析），它支持高并行和基于 GPU 的深度学习模型训练，内置于集群硬件中的 GPU，能帮助 Greenplum

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum 排序算法

ot ● 分割：重新排序数组，所有比基准元素小的元素排放到基准元素之前；所有比基准元素大的元素排放到基准元素之后。分割完成后，我们完成了对基准元素的排序，即基准元素在数组中的位置不再改变 ● 递归排序子序列：递归地将小于基准元素的子序列和大于基准元素的子序列分别进行排序快速排序 8 ● 快速排序算法每次选取一个基准元素，将比基准元素小的排到基准元素左边，比基准元素大的排到基准元 6 8 9 5 9 2 1 3 6 8 20 ● 堆排序算法堆排序 21 ● 归并排序分为两个阶段，阶段一是分割阶段，将原始待排序数据分成若干个顺串。阶段二是合并阶段，将所有小顺串合并成一个包含所有数据的大顺串外排序之归并排序 1 7 4 8 1 7 4 8 1 4 7 8 待排序数据分割阶段合并阶段 22 ● 问题一：分割阶段只需要顺序扫描一次外存，最简单的策略是读取外存数据，加

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

物理模型经验分享物理模型对于系统性能有很大影响，因此需要我们特别关注。以下来自于在某大型银行的使用经验：行存储和列存储： • 避免过多使用列存储的原因是防止小档数过多。 • 列存储能够提升查询性能，对于更新和全字段类操作性能反而会下降 • 对于少数频繁查询的宽表，例如交易表、帐户表、客户表等采用列存储，其它表采用行存储数据压缩： • 在金 – Merge join（排序关联）  大多数关联都是Hash关联，关联是小表被Hash到内存中，如果涉及数据表规模较大，内存不足时， GPDB将会生成临时文件，这些档会放在segment的实例目录下pgsql_tmp目录下，GPDB建议保留 30%左右的空间作为临时空间  避免小表Left Join大表修改为先Inner Join再Left Join的方式，避免大表被Hash

0 码力 | 41 页 | 1.42 MB | 1 年前
3
Brin Index主Greenplum 7中的理论与实现

VMware, Inc. Brin的优势和劣势优势：占用空间小创建快劣势：只有在数据具有一定分布特点时才有用 Confidential │ ©2021 VMware, Inc. Brin的体积 Brin tuple: 20bytes Block Range: 8K * 20 = 160K Brin比Heap小8000倍 1 TB的Heap表只需要125M的Brin [1

0 码力 | 32 页 | 1.04 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

Teradata SQL Apache MADlib Python. R、 Java、Perl、C Apache SOLR PostGIS ANSI SQL 其他数据库 SQL ML/统计数据/图形程序化文本地理空间公有云私有云完全托管云本地 BI / 报告自定义应用机器学习 AI SQL 大规模并行处理 (MPP) PB 级数据加载查询优化器 (GPORCA) 分析功能，还是以大规模并行方式构建数据模型，都可以实现。Greenplum 5 支持适用于数据挖掘和数据科学工作的最全面、最先进的分析程序包和扩展。 Greenplum 5 还针对最受欢迎的 Python 和 R 语言算法库提供简单易用的安装程序。 • Greenplum 5 中支持的 Python 语言算法库和程序包有：Tensorflow、NumPy、SciPy、scikit-learn、Pandas、 NLTK、P 数据库内实施 GPText 完成索引和搜索功能，其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器（可接受来自支持的 Solr 查询处理器的采用混合语法的查询）。PostGIS 程序包是 PostgreSQL 的空间数据库扩展，可让地理信息系统 (GIS) 对象存储在数据库中。Pivotal Greenplum PostGIS 扩展包括支持使用基于 GiST 的 R 树空间索引和函数分析和处

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

优刻得 17/206 yum install postgresql-jdbc.noarch –y Windows 环境下 JDBC 驱动，将 jar 添加到⼯程的 BUILD PATH。⽰例程序1，java连接UDW，执⾏建表，插⼊操作 PostgreSQLJDBC1.java import java.sql.Connection; import java.sql.DriverManager; "+e.getMessage()); System.exit(0); } System.out.println("Opened database successfully"); } } ⽰例程序⼆：java连接UDW，执⾏查询操作 PostgreSQLJDBC2.java import java.sql.Connection; import java.sql.DriverManager; JDBC⽅式访问⽅式访问 Linux操作系统 yum install postgresql-jdbc.noarch –y Windows环境下JDBC驱动，将jar添加到⼯程的BUILD PATH。⽰例程序1，java连接UDW，执⾏建表，插⼊操作 PostgreSQLJDBC1.java import java.sql.Connection; import java.sql.DriverManager;

0 码力 | 206 页 | 5.35 MB | 1 年前
3

共 14 条前往

页

分类

语言

格式

Greenplum Database 管理员指南 6.2.1

Greenplum 精粹文集

并行不悖- OLAP 在互联网公司的实践与思考

Greenplum 新一代数据管理和数据分析解决方案

完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

Greenplum 排序算法

Pivotal Greenplum 最佳实践分享

Brin Index主Greenplum 7中的理论与实现

Pivotal Greenplum 5：新一代数据平台

Greenplum数据仓库UDW - UCloud中立云计算服务商