Greenplum 6新特性:
在线扩容工具GPexpand剖析Greenplum 6新特性: 在线扩容工具GPexpand剖析 杜佳伦 (jdu@pivotal.io) 大纲 • Greenplum 集群部署 • GPExpand简介与具体用法 • Greenplum 6中GPExpand的改进与实现 Greenplum 集群部署 Greenplum 集群部署 • gp_segment_configuration 字段名 描述 dbid distclass 分布列的操作类 GPExpand简介与具体用法 • GPExpand是Greenplum的扩容工具,可以为集群增加新的节 点来支持更大容量的存储和更高的计算能力。 • 随着Greenplum一起安装发布,在$GPHOME/bin下面,和其 他辅助工具,如gpstart,gpstop,gpactivatestandby一样,是一个 用python写的命令行脚本。 GPExpand简介与具体用法0 码力 | 37 页 | 1.12 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部分内容都经过编者重新考量和实测验证,有些观点与官方手册有 出入,仅代表编者本人观点,与官方手册无关。本书中可能会提及一些非官方的命令和 工具等,仅用于讲解相关知识,如有缺失相关细节的情况,请谅解。 致读者 如果您在阅读和参考本书的过程中发现有任何不妥之处,或者有任何的建议和意见, 欢迎联系编者,本书主要针对 GP 数 ... - 44 - Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 4 - 第三方客户端工具 .................................................................................................. .......................................................................................... - 96 - 选择表的存储模式 ............................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum......................................................................................... 8 完善的生态工具链 ................................................................................................. 的管理体验。 • 安全容器方案:iSulad+shimv2+StratoVirt 安全容器方案,相比传统 docker+qemu 方案,底噪和启动时间 优化 40%。 • 双平面部署工具 eqqo:ARM/X86 双平面混合集群 0S 高效一键式安装,百节点部署时间<15min。 3. 探索场景创新 边缘计算:发布面向边缘计算场景的版本 openEuler21.09Edae 4. 繁荣社区生态 友好卓面环境:UKUDDEXfce 卓面环境,丰富社区卓面环境生态。 • 欧拉 DevKit:支持操作系统迁移、兼容性评估、简化安全配置 secPaver 等更多开发工具。 Greenplum:新一代 HTAP 数据平台 Greenplum 自 2006 年发布第一个版本以来,就以精巧架构、简单易用、运行稳定、优异性能、环境适应性强在 MPP 数据库领域独占鳌头,基于0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 精粹文集Interconnect 上遇到了障碍,可见这项技术的 关键性。 Greenplum 集群架构 Big Date2.indd 3 16-11-22 下午3:38 4 2. Greenplum 为什么选择 Postgreeql 做轮子 说到这,也许有同学会问,为什么 Greenplum 要基于 Postgresql? 这个问题大致引申出两个问题: 1) 为什么不从数据库底层进行重新设计研发? 在 一个起跑线上)。我们无意去从技术点上PK这两个数据库孰优孰劣, 我相信它们的存在都有各自的特点,它们都有成熟的开源社区做支 持,有各自的庞大的 fans 群众基础。我们认为,Greenplum 选择 Postgressql 有以下考虑: Postgresql 号称最先进的数据库(官方主页“The world’s most advanced open source database”), 且不管这是不是自我标榜, 基 本 上 99% 都 可 以 在 Greenplum 上 使 用, 例 如 odbc、jdbc、oledb、perldbi、python psycopg2 等,所以 Greenplum 与第三方工具、BI 报表集成的时候非 常容易;对于 postgresql 的 contrib 中的一些常用模块 Greenplum 提 供了编译后的模块开箱即用,如:oraface、postgis、pgcrypt0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 编译安装和调试系统上编译 首先需要关闭苹果操作系统的 SIP 特性,否则无法初始化集群。 1. 重启操作系统 2. 重启过程中按下 command+R 进入恢复模式 3. 从 Utilities 菜单选择 Terminal 4. 执行 csrutil disable 5. 重启操作系统 // 安装Greenplum管理脚本依赖的 Python 包 $ wget https://bootstrap Greenplum使用 Bash 和 Python 脚本初始化集群和管理集群。可以通过在合适的地方设置日志或 者调试信息可以帮助分析某些难以解决的问题。 ● 集群初始化工具 gpinitsystem 是Bash脚本工具,有些时候它的报错信息很不清楚。这个 时候可以 ○ 使用 -D 选项 ○ gp_bash_functions.sh 是内部一个被频繁调用执行系统命令的函数,可以通过 set SOURCE_FILES "src" "*.c" "*.h") add_executable(gpdb ${SOURCE_FILES}) 然后选择 Run → Attach to Local Process… 出现下面 “Attach with LLDB to” 窗口。选择需要调试 的进程id即可。(如果确定进程id请见前面小节) 如果 clion 调试器console显示类似 “Debugger0 码力 | 15 页 | 2.07 MB | 1 年前3
Greenplum机器学习⼯具集和案例thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com 在线注册 - ⽹网⻚页浏览历史 - 地理理信息数据 - 业务部⻔门信息 - ⽹网站⽤用户信息 • TB 级别数据 • 1000+ 特征 平台 建模⼯工具 PL/pgSQL 数据和技术预览 2017.thegiac.com 数据整理理 数据准备 信息价值和证据权 重 成对相关性 删除⾼高度相关变量量 逻辑回归 计算0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 介绍大数据平台的优势 ● 一次打包到处运行的平台:部署灵活,不受限于硬件环境和平台,无论裸机、私有云、公 有云均可部署。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定, 从而允许客户灵活选择最适合的方案,降低未来的迁移代价,而开发、运维人员无需要学 习新的数据库处理技术,人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台:支持各种数据源,包括 Kafka、Hadoop、HIVE、 C 等。 ● 支持标准的平台:支持 SQL、JDBC 和 ODBC 等行业标准。经过半个多世纪的发展, SQL 成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache0 码力 | 3 页 | 220.42 KB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台Amazon Web Services、Microsoft Azure 和 Google 云平台上运行,并且同时支持自带使用授权 (BYOL) 配置和以小时为单位的按需配置。只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系 列部署选项,群集便会立即启动运行,可供客户使用。 图 2:Pivotal Greenplum 5:不受限于基础架构的软件架构。 不受限于基础架构 裸机 私有云 架构化查询语言性能提升 Pivotal Greenplum 5 对 SQL 查询处理进行了多项改进。广受欢迎的 SQL 结构——相关子查询(即嵌套在另一查询内的查 询)可使用来自外部查询的值。鉴于业界各大 BI/ 报告工具对子查询的广泛使用,这可以说是 GPORCA 中最重要的一项改 进了。在一些大型数据集中,对于外部查询所处理的每一行,系统都要对子查询进行一次计算,因此执行过程可能极为漫长。 GPORCA 的架构设 ionSelector、DynamicScan 和 Sequence。通过在查询计划中放置 这些 PartitionSelector,GPORCA 可以支持更复杂的模式,例如基于相等和范围谓词的分区选择,以及动态分区消除。7 Greenplum 5 中的 ANALYZE 命令使用更快速的 PostgreSQL 实施来收集表统计数据,从而针对堆积优化表和附加优化表提 高其性能。系统会在单个查询中收0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商快速上⼿ 快速上⼿ ⼀、创建数据仓库 ⼀、创建数据仓库 1.选择UDW标签可以跳转到UDW操作界⾯(如果没有这个标签,请联系客服申请开通),点击欢迎⻚的“开始探索”,然后点击“创建数据仓库”。 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 10/206 2.选择计算节点机型、计算节点数量以及付费⽅式。 其中可选的机型配置有: 8xlarge 28核 168G 3800G(SSD) 选择数据仓库类型:Greenplum 是 EMC 开源的数据仓库产品、Udpg 是基于 PostgreSQL 开发的⼤规模并⾏、完全托管的 PB 级数据仓库服务。 选择节点个数:UDW 是分布式架构、所有节点数据都是双机热备,实际可⽤总容量略⼩于节点个数*节点磁盘⼤⼩/2,请根据实际数据⼤⼩选择合适的节点。 3.设置数据仓库信息 必选项有数据 必选项有数据仓库名称、DB管理员⽤⼾名、管理员密码。可选项有默认DB,默认DB的名称为dev,你可以选择除了“test”、“postgres”、“template”、“template0”、“template1” 、 “default”之外的其他名称。 DB管理员⽤⼾名不能为“postgres”。端⼝固定为 5432,暂不提供修改。 快速上⼿ Greenplum数据仓库 UDW Copyright ©0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享All rights reserved. Greenplum 架构 6 Pivotal Confidential–Inter nal Use Only 平台概况 产品特性 客户端访问和工具 多级容错机制 无共享大规模并行处理 先进的查询优化器 多态存储系统 客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 语言支持 标准SQL支持,SQL 2003 OLAP扩展 支持 MapReduce 扩展编程语言 (Python,R, Java, Perl, C/C++) 第三方工具 BI 工具, ETL 工具 文本分析,数据挖掘等 管理工具 GP Command Center GP Workload Manager 7 Pivotal Confidential–Inter nal Use Only0 码力 | 44 页 | 8.35 MB | 1 年前3
共 20 条
- 1
- 2













