Greenplum数据仓库UDW - UCloud中立云计算服务商146 152 152 163 177 177 183 190 190 191 192 udw优化指南 表膨胀 表膨胀 表膨胀的原因 如何避免表膨胀 UDW中 中Json类型 类型 Json相关操作 Json操作举例 Json相关函数 Json创建函数 Json处理函数 接⼊第三⽅ 接⼊第三⽅ BI ⼯具 ⼯具 ⼀、 UDW 接⼊ Zeppelin ⼆、 UDW Copyright © 2012-2021 UCloud 优刻得 5/206 概览 概览 产品架构 快速上⼿ 操作指南 访问UDW数据仓库 数据导⼊ 开发指南 udw优化指南 表膨胀 UDW中Json类型 接⼊第三⽅ BI ⼯具 UDW 使⽤案例 Pxf 扩展功能 迁移数据 使⽤ pg_dump 使⽤ pxf 外部表 FAQs 数据仓库价格 概览 Greenplum数据仓库 UDW Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 11/206 计算密集型 dc1.8xlarge 28核 168G 3800G(SSD) 选择数据仓库类型:Greenplum 是 EMC 开源的数据仓库产品、Udpg 是基于 PostgreSQL 开发的⼤规模并⾏、完全托管的 PB 级数据仓库服务。 选择节点个数:UDW 是分布式架构、所有节点数据都是双机热备0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1....................................................................................... - 144 - 索引类型 .................................................................................................. ............................................................... - 330 - gpbackup 和 gprestore 包含的对象类型 ...................................................... - 331 - 执行一个 gpbackup 备份 ................. ....................................................................................... - 392 - 数据类型 ..................................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台5:新一代数据平台 作为能够独立于专用硬件加速提供高性能的纯软件数据平台,Greenplum 可根据客户需求在任何位置运行。借助这种“不 受限于基础架构”的方法,可以在本地或多云环境(私有云或公有云)中部署同一类型的分析数据库。 无论在商业化的 Pivotal Greenplum 或是开源的 Greenplum Database 中,这种不受限于基础架构的方法的大部分优势都 具有同样强大的作用。在 Greenplum 偏差。随后,Workload Manager 会在查询使 用的某项资源超过已定义阈值时记录日志,并可根据规则定义在必要时终止超过规定资源限额的查询。规则可按一天中的 时间和一周中的日期编写,这样各种不同类型的工作负载(例如 ETL 和报告处理)都能不间断运行。 架构化查询语言性能提升 Pivotal Greenplum 5 对 SQL 查询处理进行了多项改进。广受欢迎的 SQL 结构——相关子查询(即嵌套在另一查询内的查 GREENPLUM 5:新一代数据平台 其他功能特性 Pivotal Greenplum 5 支持多种新的内置数据类型,并针对现有数据类型进行了改进。新增的类型包括符合 RFC 4122 和 ISO/IEC 9834-8:2005 标准的通用惟一标识符 (UUID)。JSON 类型可用于存储和处理不限长度的可变 JSON 数据,新 增了用于查询和解析 JSON 记录的内置函数。与 JSON 类似,HSTORE0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum 精粹文集是如何的方便,另外,开发新的功能模块、新的数据类型、新的索 引类型等等非常方便,只要按照 API 接口开发,无需对 PG 重新编译。 PG 中 contrib 目录下的各个第三方模块,在 GP 中的 postgis 空间 数据库、R、Madlib、pgcrypto 各类加密算法、gptext 全文检索都 是通过这种方式实现功能扩展的。 4) 在诸如 ACID 事物处理、数据强一致性保证、数据类型支持、独特 的 MVCC 以上,并带有掉电保护 功能,RAID 卡应为多通道,目前接触的硬件厂商中,单通道支持的最 大磁盘数为 16 块) ·硬盘尽量选 用 SAS 盘,从实践经验看,硬盘故障是 Greenplum 集群中最为常见的故障类型,而 SAS 盘相比 SATA 盘在性能和稳定 性上都明显的高于 SATA 盘 。 ·RAID 卡一定要带 cache,否则做完 RAID 后写的性能会非常差, 曾遇到一客户,把 GP 迁移到更大容量、更多磁盘的机器后,集群 ·分区: Greenplum 的分区原理与其他数据库无异。表的子分区个数不宜过 多,子分区粒度不易过细,子分区之间无需均匀。 ·索引: 在 Greenplum 中,可以使用索引但不能滥用。与 OLTP 类型数据库 不同,Greenplum 在绝大部分关联场景中不会用到索引。只有部分 小结果集的查询场景中需要使用索引优化。 Big Date2.indd 31 16-11-22 下午3:38 320 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum上云与优化Greenplum(SSD/SATA) AWS RedShift 外部表 支持OSS外部表 无此设计 地理信息支持 支持(自带PostGIS) 不支持 分区表支持 支持 不支持 数据类型 支持所有PostgreSQL 9.0以下类型 支持11个PostgreSQL类型 横向扩容 支持 支持,需要停机(数分钟) 索引 支持(B-tree、Bitmap) 不支持 2016Postgres中国用户大会 推荐应用架构 应用服务器 目前支持的插件 MADLib PL/Java Pgcrypto Fuzzstringmatch PostGIS Orca hll 2016Postgres中国用户大会 完善的JSON数据类型支持 Create table users( id int, info json) Select info->name from users 2016Postgres中国用户大会 用户权限定制0 码力 | 26 页 | 1.13 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考多任务冲突 • 库表使用易出现问题 Ø 表定义过大 Ø 表类型单一 Ø 表的散列键不恰当 Ø 分区表的分区键性能不佳 • 加载易出现问题 Ø 文件加载出现特殊字符 Ø 数据校验标准问题 35 Greenplum开发规范 业务库表设计规范 • GP中表的范围 Ø 最大时间为年表 Ø 数据量小,可用单表 • 多种表类型 Ø 堆表 (选好常用列作为三列键) Ø 分区表 (按照 yyyymmdd yyyymmdd 分区,建议都添加 datenum int8) Ø append表 Ø 列存储表 Ø 多种表类型结合 • 表的命名 Ø GP内所有名称都小写 Ø table_name命名要符合命名规则,做到见名知义 36 Greenplum开发规范 用户与权限规范 • 四层授权保保障 Ø 角色 role : 管理数据库内对象权限 Ø 用户 user : 用户认证权限 Ø pg_hba.conf conf : 实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 • 账号类型划分 Ø 管理账号 Ø 开发账号 Ø 调度账号 Ø 业务账号 Ø 测试账号 • 账号名称限定 Ø 所有都用小写字母加下划线的方式 Ø 按照命名规则,做到见名知义 37 Greenplum开发规范 Greenplum使用规范 • 平时使用规范 Ø避免高频率的insert、update操作 Ø避免频繁执行高内存消耗的会话0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 编译安装和调试em_*** ● 数据库的日志文件:进入 master (segment 的日志类似)的日志目录 (例如 /data/master/gpseg-1/pg_log/) 查看日志。 这里面有2种类型的日志: ○ startup.log ○ gpdb-.csv 2.2.3 初始化 master 数据库失败 手动执行initdb查看详细错误信息,然后分析具体错误信息采取相应错误。不同的版本可 (lldb) c Greenplum 会再次断点在 ExecProcNode, 这次的 node 类型是 T_MotionState, 执行 ExecMotion() 函数为 ExecAgg 获得下一个 tuple。 ExecMotion() 等待来自于 Segment 的结果。结果类型为 TupleTableSlot,执行到 ExecMotion 返回时可以看 返回的结果内容。 (lldb)0 码力 | 15 页 | 2.07 MB | 1 年前3
Greenplum 排序算法结构体 排序节点 类型 字段 说明 ScanState ss 查询状态信息 bool randomAccess 排序后的元组是否需要随机访问 bool bounded 是否是TopK查询 int64 bound TopK查询中K的值 bool sort_Done 排序步骤是否完成 GenericTupStore* tuplesortstate 根据排序算法类型,指向Tuplesortstate0 码力 | 52 页 | 2.05 MB | 1 年前3
Greenplum机器学习⼯具集和案例Parallel Processing ⼯工作原理理 2017.thegiac.com C API (Greenplum, PostgreSQL, HAWQ) 底层抽象层 (数组操作、类型转换、数值计算库等) 数据库内建函 数 ⽤用户接⼝口 ⾼高层抽象层 (迭代控制器器) 内循环函数 (实现机器器学习逻辑) Python SQL C++ MADlib ✓ 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动 化 X 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客 户 商业影响 2017.thegiac.com 用户案例例20 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台个master主机和四个segment主机,master和segment虚拟主机的配置信息如下 master segment 虚拟机类型 n1-standard-16 n1-standard-8 CPU核数 16 8 内存大小(GB) 60 30 CPU平台 Intel Haswell 存储类型 SSD persistent disk 存储大小(GB) 512 Linux发行版 Ubuntu Linux0 码力 | 52 页 | 4.48 MB | 1 年前3
共 17 条
- 1
- 2













