Greenplum Database 管理员指南 6.2.1Host(主机) : GP 的一台独立的机器设备 Instance : GP 的计算实例,很多时候也叫 Segment Primary : GP 的主计算实例 Mirror : GP 的镜像计算实例 MPP : 大规模并行处理 算子 : 执行计划中的运算操作 背景简介 多年前,编者翻译了 GP4.2.2 的 AdminGuide,如今,GP 已经历经了无数个版 ................................................................................. - 15 - Instance 镜像................................................................................................... ................................................................................... - 17 - Master 镜像 ..................................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum................................................................................... 8 以开源创新替代专有分析环境 .................................................................................................. 解决方案,可部署在不同操作系统、 不同芯片的环境,适合本地部署、多云环境(公有云和私有云)中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源 8 白皮书 | 8 • 嵌入式:发布面向嵌入式领域的版本 openEuler 21.09 Embedded,镜像大小<5M,启动时间<5S。 4. 繁荣社区生态 友好卓面环境:UKUDDEXfce 卓面环境,丰富社区卓面环境生态。 • 欧拉 DevKit:支持操作系统迁移、兼容性评估、简化安全配置 secPaver 等更多开发工具。 Greenplum:新一代0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 精粹文集Postgresql 实例的高效协同和并行计算,Interconnect 承载了并行 查询计划生产和 Dispatch 分发(QD)、协调节点上 QE 执行器的并 行工作、负责数据分布、Pipeline 计算、镜像复制、健康探测等等诸 多任务。 在 Greenplum 开源以前,据说一些厂商也有开发 MPP 数据库的打算, 其中最难的部分就是在 Interconnect 上遇到了障碍,可见这项技术的 关键性。 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror 镜像保护机制 ·资源队列管理 ·WEB/Brower 监控 Big Date2.indd 7 16-11-22 下午3:38 8 3. Greenplum 的艺术 -- Parallel 在数据加载和数 据计算中表现出强悍的性能,某行业客户对此深有体会 : 同样 2TB 左 右的数据,在 Greenplum 中不到一个小时就加载完成了,而在用户传 统数据仓库平台上耗时半天以上。 在该用户的生产环境中,1 个数百亿表和 2 个 10 多亿条记录表的全表 关联中(只有 on 关联条件,不带 where 过滤条件,其中一个 10 亿 条的表计算中需要重分布),Greenplum 仅耗时数分钟就完成了,0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum on Kubernetes
容器化MPP数据库○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性 容器化分布式应用程序公共问题 容器网络管理 容器资源管理 容器镜像管理 容器调度 容器监控及自 定义操作 容器存储管理 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU ○ 内存 容器化Greenplum运维管理 ○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性 Kubernetes 容器网络管理 容器资源管理 容器镜像管理 容器调度 容器监控及自 定义操作 容器存储管理 Kubernetes 101 Kubernetes 101 Master组件 Node组件 Kubernetes存储资源 PV ●0 码力 | 33 页 | 1.93 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案数据规模 • 20TB,每天增长400GB • 优势 • 将响应时间缩短90% “借助运行Greenplum数据引擎的Sun数据仓库设备,Reliance可以在快速发展,用户需求不断增加 的数据环境中达到预期的高度响应能力。” - Reliance 的副总裁和主管(决策支持系统)Raj Joshi 25 响应时间 (分) 以前的数据库 客户实例: PLDT • 业务问题 CDR分析 全表扫描测试 – DWA测试环境:针对表C(372844366 rows)进行全表扫描,历时少于1.5 分钟。 – 客户投产环境:针对表C的一个子表(记录数约为C表的1/10) 进行全表扫 描,历时超过20分钟。 结论:如果采用DWA替代现有环境,获得超过120倍的性能提升。 • 真实应用测试 – DWA测试结果:完成应用的全过程仅耗时48分钟。 – 客户投产环境:客户11月份月度处理时,完成本项任务需要65小时。 成本项任务需要65小时。 结论:如果采用DWA替代现有环境,获得超过80倍的性能提升。 案例分享:阿里巴巴 • 业务用例 • 通过分析用户的网络点击日志,进行产品关联分析,让客户可以 快速的找到相近产品 • Existing Solution • Oracle • Facts • 6台华为-赛门铁克T3500服务搭建数据库阵列 • 每台T3500服务器可以自带24TB硬盘 • 每台服务器含有两个四核的CPU(80 码力 | 45 页 | 2.07 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台.....................................................................................3 以开源创新替代专有分析环境 .................................................................................................. Pivotal Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 询。与旧式 MPP 数据库中常用的传统 RDBMS Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 图 1:Pivotal Greenplum 5:新一代数据平台。 以开源创新替代专有分析环境 为了支持 Greenplum 的后续发展,Pivotal 于 2015 年决定将其产品 Greenplum Database 开源。由此产生的最积极结果是 Greenplum Database0 码力 | 9 页 | 690.33 KB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考12台虚拟机,39台物理机 17 Greenplum现状说明 三大Greenplum集群定位分类 • 公司IDC_01机房Greenplum体系 Ø 公司第一套Greenplum集群,网络环境为千兆网 Ø 数据来源为OLTP库,针对小数据量传输和计算,部分实时交互操作 Ø 以对账业务为主,统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数 Greenplum扩展规划 六 22 Greenplum运维体系 环境创建与部署 • 部署流程 Ø 规划部署方案 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系 环境创建与部署 • 部署注意点 Ø 资源要充足(ETL,管理节点,数据节点,数据集市) 资源要充足(ETL,管理节点,数据节点,数据集市) Ø 万兆网络 (网络环境对功能和性能的影响) Ø 节点规划 (数据节点6-10个segment节点) Ø 参数调整 (操作系统参数,greenplum集群参数) 24 Greenplum运维体系 系统状态监控 - gpcc -公司IDC_01机房 25 Greenplum运维体系 系统状态监控 - gpcc -公司IDC_02 机房 26 Greenplum运维体系0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 编译安装和调试2.1 手工集群初始化 下面介绍如何手工部署一个单机集群:在一台笔记本上安装一个Greenplum的集群,包括一个 master,两个segments。 # step 0. 系统环境配置 $ /etc/sysctl.conf kernel.shmmax = 500000000 kernel.shmmni = 4096 kernel.shmall = 4000000000 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072 $ sudo reboot # step 1. source一些环境变量, 例如PATH $ source $HOME/gpdb.master/greenplum_path.sh # step 2. 交换集群中所有机器的ssh密钥, 我们这里只有一台机器 segment 时出错,并且看不到具体错误信息(通常由于错误信息被重定向到 /dev/null 了),则可以尝试手动启动 segment。 手动启动segment的命令参加下面,需要根据自己的环境修改某些路径或者参数: export LD_LIBRARY_PATH=/home/gpadmin/build/gpdb.master/lib:/lib:;export0 码力 | 15 页 | 2.07 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 17/206 yum install postgresql-jdbc.noarch –y Windows 环境下 JDBC 驱动,将 jar 添加到⼯程的 BUILD PATH。 ⽰例程序1,java连接UDW,执⾏建表,插⼊操作 PostgreSQLJDBC1.java import java.sql -d database -p port –W 1.3 JDBC⽅式访问 ⽅式访问 Linux操作系统 yum install postgresql-jdbc.noarch –y Windows环境下JDBC驱动,将jar添加到⼯程的BUILD PATH。 ⽰例程序1,java连接UDW,执⾏建表,插⼊操作 PostgreSQLJDBC1.java import java.sql.Connection; primary key 或者第⼀个 column 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 129/206 做哈希分布。 在MPP环境下,查询的执⾏时间是由所有节点决定的。当数据出现倾斜时,会导致较低的性能以及内存溢出的情况。 当选择分布键时,考虑以下⼏个⽅⾯: 1. 为所有的表显⽰地指定哈希或随机分布,不要使⽤默认的。 20 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum 介绍、去哪儿 网、易观、腾云科技、饿了么、金风科技在内大量开源用户。 Greenplum 大数据平台的优势 ● 一次打包到处运行的平台:部署灵活,不受限于硬件环境和平台,无论裸机、私有云、公 有云均可部署。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定, 从而允许客户灵活选择最适合的方案,降低未来的迁移代价,而开发、运维人员无需要学 习新的数据库处理技术,人力成本也能够大大降低。0 码力 | 3 页 | 220.42 KB | 1 年前3
共 14 条
- 1
- 2













