trace信息 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum Database 管理员指南 6.2.1

............................................................................ - 184 - 收集 ROOT 分区的统计信息 .................................................................................. - 186 - Orca 特性与增强 ..................................................................................... - 379 - 收集统计信息 .................................................................................................. 的访问入口，主要负责处理客户端连接的访问以及用户提交的 SQL 语句的解析、生成执行计划、优化执行计划等。Master 不存储业务数据，只存储用于维持系统运行的全局信息，比如，对象定义信息，统计信息等，Master 非常重要，如果 Master 丢失，即便是原厂专业技术支持，也不能保证恢复所有信息。 Master目前采取的是Active-Standby的高可用模式，当Master处于Active 状态时，备用 Master(简称为

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

年）出现，基本上和 Hadoop 是同一时期（Hadoop 约是 2004 年前后出现的，早期的 Nutch 可追溯到 2002 年）。互联网行业经过之前近 10 年的由慢到快的发展，累积了大量信息和数据，数据在爆发式增长，这些海量数据急需新的计算方式，需要一场计算方式的革命。传统的主机计算模式在海量数据面前，除了造价昂贵外，在技术上也难于满足数据计算性能指标，传统主机的 Scale-up 是并行工作的，这种并行的 Style 贯穿了 Greenplum 功能设计的方方面面：外部表数据加载是并行的、查询计划执行是并行的、索引的建立和使用是并行的，统计信息收集是并行的、表关联（包括其中的重分布或广播及关联计算）是并行的，排序和分组聚合都是并行的，备份恢复也是并行的，甚而数据库启停和元数据检查等维护工具也按照并行方式来设计。得益于这种无所不在的并行，Greenplum 与节点的无关性，Shuffle 是基本避免不了的；而 MPP 数据库对于相同 Hash 分布数据不需要重分布，节省大量网络和 CPU 消耗。 Mapreduce 没有统计信息，不能做基于 cost-base 的优化；MPP 数据库可以利用统计信息很好地进行并行计算优化。例如，MPP 对于不同分布的数据可以在计算中基于 Cost 动态决定最优执行路径，如采用重分布还是小表广播。 Big Date2.indd

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

开发的⼤规模并⾏、完全托管的 PB 级数据仓库服务。选择节点个数：UDW 是分布式架构、所有节点数据都是双机热备,实际可⽤总容量略⼩于节点个数*节点磁盘⼤⼩/2，请根据实际数据⼤⼩选择合适的节点。 3.设置数据仓库信息必选项有数据仓库名称、DB管理员⽤⼾名、管理员密码。可选项有默认DB,默认DB的名称为dev，你可以选择除了“test”、“postgres”、“template”、“template0”、“template1” 点击“管理数据仓库”进⼊⼆级⻚⾯。操作指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 39/206 该⻚⾯上可以看到数据仓库的详细信息，包括db信息以及节点信息。在这个⻚⾯上也可以启动、停⽌或重启数据仓库。点击数据仓库名称右边的“更改”，可更改当前数据仓库名称。扩容数据仓库扩容数据仓库操作指南 Greenplum数据仓库 UDW Copyright postgresql，由于 udw 采⽤ mpp 数据，创建表格的时候可以选择不同的数据分布策略，不同的存储⽅式等等。创建表格的时候可以定义下⾯信息：数据类型表约束数据分布策略表存储模型分区策略外部表：udwfile、udwhdfs 下⾯分别根据上⾯的可选信息对表格设计进⾏分析。 4.1 数据类型数据类型开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

M23 M24 M22 统计信息收集  对于系统表和用户表需要收集统计信息，GPDB的查询计划是cost base的，统计信息的准确性对查询计划的优劣有很大影响；  对于字段数较多的表，可关闭gp_autostate_mode (on_no_stats=>none)，仅对必要列执行Analyze，只在结果中返回的列无需收集统计信息；  对于频繁创建表删表的系统，可 no_stats=> on_change) ，数据变化量达到一定阀值才收集统计信息； – gp_autostats_mode = on_change – gp_autostats_on_change_threshold = 5000000（资料依据项目而定）  Truncate操作不会丢失字段级统计信息，在适当条件下可仅针对系统字段执行Analyze 垃圾空间回收 • GPDB采用MVCC机制，UPDATE 查看实例宕机历史和恢复历史信息  select * from gp_configuration_history order by 1 ;  查看Tablespace对应的文件系统位置 select * from pg_filespace_entry ; Admin常用命令  gpstate：显示Greenplum数据库运行状态，详细配置等信息  常用可选参数

0 码力 | 41 页 | 1.42 MB | 1 年前
3
Greenplum 编译安装和调试

PGHOST=`hostname` $ make $ source gpdemo-env.sh $ psql postgres postgres# SELECT version() 有关更详细的信息请参考 README.macOS.md。 1.2 在 Redhat/Centos 系统上编译本小节以 RHEL7 为例介绍如何编译Greenplum。首先下载 Greenplum 会失败，但是不清楚失败原因是什么。下面提供一些思路来 RCA： 2.2.1 使用 gpinitsystem 调试模式 gpinitsystem 有一个 -D 选项，使用这个选项可以看到更多的输出信息，根据这些额外的输出信息可以发现并解决大部分问题。 2.2.2 查看日志常用的日志文件有两类，一种是 gpinitsystem 的日志，一种是数据库的日志。它们分别保存在不同的目录下： ● 查看日志。这里面有2种类型的日志： ○ startup.log ○ gpdb-.csv 2.2.3 初始化 master 数据库失败手动执行initdb查看详细错误信息，然后分析具体错误信息采取相应错误。不同的版本可能参数不同，可以通过在 gpinitsystem 脚本中找到完整的命令。 $ initdb -E UNICODE -D /data/master/gpseg-1

0 码力 | 15 页 | 2.07 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

com • PL/X：各种语言实现自定义函数（存储过程） • MADLib: 数据挖掘、统计分析、图（Graph）等算法 • GPText：文本检索和分析 • GeoSpatial：地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure Language PLPython 营销 - 在线注册 - ⽹网⻚页浏览历史 - 地理理信息数据 - 业务部⻔门信息 - ⽹网站⽤用户信息 • TB 级别数据 • 1000+ 特征平台建模⼯工具 PL/pgSQL 数据和技术预览 2017.thegiac.com 数据整理理数据准备信息价值和证据权重成对相关性删除⾼高度相关变量量逻辑回归⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理特征⽣生成验证预测信息价值⽅方差膨胀因⼦子成对相关性逻辑回归 Elastic Net 特征选择模型 1 2 3 4 5 6 改进后的 in-database 流程

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

万亿字节千兆字节兆字节千万亿字节万亿字节千兆字节行业商务智能解决方案的实例政府电信金融服务公民服务国家安全电子政务法规实施和监管人力资本管理信息传播合规性报告资产组合分析客户报表电汇通知分部记分卡客户关系管理、收购和盈利率欺诈检测欺诈分析客户流失分析响应时间流量分析产品关联/捆绑零售 •“一切皆可商用”：商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘过去Google™ 曾经用来实现信息搜索功能的技术，现在被Greenplum用于数据仓库现在的解决方案 12 Greenplum愿景：企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 Raid10 • Solaris 10 网站日志交易数据详细数据 Greenplum •海量基础数据 •大数据量查询 Oracle 加工数据 •门户网站 •高并发查询。。。。。。用户信息 Hardware Architecture 案例分享：上海航空结算系统源系统 Oracle GreenPlum 结算 ETL Staging ETL 结算 ODS Export

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum分布式事务和两阶段提交协议

当执行prepare时候，PG会把该事务的lock信息当做prepare日志记录的一部分记录在日志文件（xlog）里。当数据库重新启动，会读这个日志文件（xlog）这条日志记录，把锁“还原”到pg_lock表里。 1. StartupXlog函数发现XLOG_XACT_PREPARE日志记录进行redo，调用函数recreateTwoPhaseFile将该日志记录中的信息放到pg_twophase目录下的文 Greenplum实现分布式事务与并发控制 • 分布式事务管理 • 分布式事务的创建、状态迁移等 • QD向QE发起两阶段提交 • 分布式快照 • QD向QE发送全局快照信息 • Writer QE和Reader QE共享本地快照信息 • distributed log：分布式事务提交日志 • 用于判断分布式事务是否提交，作用和PG 的commit log类似，基于simple LRU实现 • log(CLOG) • 对PREPARE、COMMIT/ABORT PREPARED语句的处理 Greenplum在PG的基础上实现 Greenplum复用PG的实现 33 分布式事务信息在QD和QE之间的同步 MyTmGxact: TMGXACT 分布式事务结构体 • 分布式事务id • 分布式事务管理器启动的时间戳 • 活跃分布式事务中最小的事务id，分布式快照 • session

0 码力 | 42 页 | 2.12 MB | 1 年前
3
Greenplum上云与优化

Redshift? “有史以来卖的最好的云服务” 对比项目 ApsaraDB for Greenplum(SSD/SATA) AWS RedShift 外部表支持OSS外部表无此设计地理信息支持支持（自带PostGIS）不支持分区表支持支持不支持数据类型支持所有PostgreSQL 9.0以下类型支持11个PostgreSQL类型横向扩容支持支持，需要停机（数分钟） role my_user rds_superuser; Alter role my_user nords_superuser; 为该用户放开部分superuser的权限查看其它用户数据查看所有连接信息杀连接创建和删除插件 2016Postgres中国用户大会解决OOM问题实例的OOM有时很频繁，同时OOM很难提前监控我们的办法利用外部脚本监控cgroup中的内存统计发生内存水位较高时，将实例移入公共

0 码力 | 26 页 | 1.13 MB | 1 年前
3
Greenplum 排序算法

+ 57 = 232个基础顺串：每个顺串平均4.07次移动 35 ● ExecInitSort：初始化SortState结构体排序节点类型字段说明 ScanState ss 查询状态信息 bool randomAccess 排序后的元组是否需要随机访问 bool bounded 是否是TopK查询 int64 bound TopK查询中K的值 bool sort_Done 排序步骤是否完成 TupleSort是排序节点的核心，算法主要阶段： ● 第一阶段初始化TupleSort，通过调用函数tuplesort_begin_common，生成 Tuplesortstate。Tuplesortstate用于描述排序所需的信息 ● 第二阶段插入元组，每次调用函数puttuple_common，会根据当前TupleSort的状态，选择将元组插入到不同的位置。 ● 第三阶段负责实际的排序逻辑，通过调用函数tuplesort_performsort，实现对已

0 码力 | 52 页 | 2.05 MB | 1 年前
3

共 29 条前往

页

分类

语言

格式

Greenplum Database 管理员指南 6.2.1

Greenplum 精粹文集

Greenplum数据仓库UDW - UCloud中立云计算服务商

Pivotal Greenplum 最佳实践分享

Greenplum 编译安装和调试

Greenplum机器学习⼯具集和案例

Greenplum 新一代数据管理和数据分析解决方案

Greenplum分布式事务和两阶段提交协议

Greenplum上云与优化

Greenplum 排序算法