Greenplum Database 管理员指南 6.2.1节的情况,请谅解。 致读者 如果您在阅读和参考本书的过程中发现有任何不妥之处,或者有任何的建议和意见, 欢迎联系编者,本书主要针对 GP 数据库的爱好者进行编写,包括产品的安装和使用说 明,以及最佳实践等内容。本书的发布更新情况与编者的时间有关,不做承诺。 编写: 陈淼 电邮: miaochen@mail.ustc.edu.cn Greenplum Database .......................................................................................... - 46 - 使用资源组................................................................................................ ....................................................................................... - 48 - 配置与使用资源组 ...............................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 精粹文集计算方式的革命。 传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也 难于满足数据计算性能指标,传统主机的 Scale-up 模式遇到了瓶颈, SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 的两篇著名论文 发表后引起业界的关注,一篇是关于 GFS 分布式文件系统,另外一篇 是关于 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单 判断的标准就是看看底下那个轮子有多少人使用,有多少人为它贡 献力量。 2) 为什么是 Postgresql 而不是其它的? 我想大家可能主要想问为什么是 Postgresql 而不是 Mysql ?(其实, 还 GreenplumDB 也是一个小型的并行计算架 构,一般一个节点配置 6~8 个实例,相当于在一个节点上有 6~8 个 Postgresql 数据库同时并行工作,优势在于可以充分利用到每个节点 的所有 CPU 和 IO 能力。 Greenplum 单个节点上运行能力比其它数据库也快很多,如果运行在 多节点上,其提供性能几乎是线性的增长,这样一个集群提供的性能 能够很轻易的达到传统数据库的数百倍甚至数千倍,所管理数据存储0 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal Greenplum 最佳实践分享这样来保证每个Instance所需资源,保证系统 系统运行稳定性,例如,减少OOM发生的概率; • 对于以批处理、串行工作为主的系统,可以配 置到8个Instance,这样可以尽可能的发挥每个 CPU的处理性能。 Master query plan Client Segments Segments Segments Segments Segment Server:Mirror Reorganize相当于重建表,数据表对应的文件名(pg_class -> relfilenode)将会发生改变。 Vacuum Full的处理性能非常低,一般情况下不建议采用,可以用Reorganize代替、或者使用AO表; 系统表不支持Reorganize操作,因此,需要定期vacuum,例如设置定时作业,每周对所有系统表vacuum analyze一次 • 查询视图GP_TOOLKIT.GP_B PostgreSQL的MVCC事务语意依赖于比较事务ID(XID)的数值: 一条带有大于当前事务的XID的插入 XID的行版本是―属于未来的‖, 并且不应为当前事务可见。 PostgreSQL使用特殊的 XID(FrozenXID)与普通的XID进行区分。 FrozenXID总是被认为比任何普通 的XID旧。 GPDB中关闭了Autovacuum(GPDB 4.2.6 UPPER)0 码力 | 41 页 | 1.42 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum也是一个技术孵化器。通过每半年发布一次的创新版,快速集成 openEuler 以及其他社区的最新技术成 果,将社区验证成熟的特性逐步回合到发行版中。这些新特性以单个开源项目的方式存在于社区,方便开发者获得源代 码,也方便其他开源社区使用。 社区中的最新技术成果持续合入发行版,发行版通过用户反馈反哺技术,激发社区创新活力,从而不断孵化新技术。 发行版平台和技术孵化器互相促进、互相推动、牵引版本持续演进。 白皮书 7 白皮书 | 7 1. 引领内核创新 云原生调度增强:针对云场景在线和离线业务混合部署场景,创新 CPU 调度算法保障在线业务对 CPU 的实时抢占及抖 动抑制,创新业务优先级 00M 内存回收算法保障在线业务安全可靠运行。 • 新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步 易用、运行稳定、优异性能、环境适应性强在 MPP 数据库领域独占鳌头,基于 Shared Nothing 的 MPP 高性能系统架构,Greenplum 可以将 PB 级的数据仓库负 载分解,并使用所有的系统资源并行处理单个查询。同时 Greenplum 具备数据库 ACID 特性,运行符合 ANSI 标准 的 SQL,可以让服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案源数据 源数据 源文件 数据仓库和分析应 用程序 Greenplum数据架构 商用硬件集群 分析 数据 市场 企业数 据仓库 企业数据集合:主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 • 确保关键任务的可靠性 • 最出色的性能 • 高度灵活性 • 逐步扩展计算能力 • 动态措施 • 数据访问: • 在一个系统中协调所有企业数据的位置 强大并且不断扩展的合作伙伴网络 硬件供应商 商务智能工具 15 服务供应商 业内支持和认可 行业奖励 “ Greenplum能够让企业在两 个方面同时达到最满意的效果: 供程序员使用的MapReduce以 及供数据库管理使用的 SQL。” Monash Research 的Curt Monash 分析师褒奖 “ Greenplum正在通过新式技术来 推动并行数据库的发展,从而满足互 联网级企业的需求。” 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、 ELT、文本挖掘、统计 运算提供统一的平台 • 可以使用SQL、 MapReduce、R等在 所有层次上对任何数 据进行并行分析 19 通过经济的方案扩展 到千万亿字节规模 • 不用担心数据增长或 者开始的规模太小 • 在商用硬件上通过线 性、经济的方式扩展0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储 表‘SALES’ 表‘SALES’ ■ 更适合压缩 ■ 查询部分列时速度快 ■ 不同列可以使用不同压缩方式 amount cust_id 表 orders 14 Pivotal Confidential–Internal Use Only Segment 1A Segment 1B Segment 个master主机和四个segment主机,master和segment虚拟主机的配置信息如下 master segment 虚拟机类型 n1-standard-16 n1-standard-8 CPU核数 16 8 内存大小(GB) 60 30 CPU平台 Intel Haswell 存储类型 SSD persistent disk 存储大小(GB) 512 Linux发行版 Ubuntu Linux 18.04 Confidential–Internal Use Only TPC-B基准测试:SELECT 表‘SALES’ 表‘SALES’ ■ 3.5倍的TPS提升 ■ master CPU使用率大幅提高 ■ TPS随着master CPU核数增加同 步提高 ■ 22万 TPS (192核单机部署 ,master+18 segments) 34 Pivotal Confidential–Internal Use0 码力 | 52 页 | 4.48 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台Amazon Web Services、Microsoft Azure 和 Google 云平台上运行,并且同时支持自带使用授权 (BYOL) 配置和以小时为单位的按需配置。只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系 列部署选项,群集便会立即启动运行,可供客户使用。 图 2:Pivotal Greenplum 5:不受限于基础架构的软件架构。 不受限于基础架构 裸机 dels、gensim、pyldavis、lifelines、spaCy、XGBoost、BeautifulSoup、lxml、Keras 和 PyMC3(Tensorflow 和 Keras 需要使用 RHEL 7 作为主机操作系统)。 • Greenplum 5 中 支 持 的 R 语 言 算 法 库 和 程 序 包 有:BH、DBI、MASS、MCMCpack、Matrix、R2jags、R6、 查询处理器的采用混合语法的查询)。PostGIS 程序包是 PostgreSQL 的空间数据库扩展,可让地理信息 系统 (GIS) 对象存储在数据库中。Pivotal Greenplum PostGIS 扩展包括支持使用基于 GiST 的 R 树空间索引和函数分析和处 理 GIS 对象。 图 3:Pivotal Greenplum 5:集成的分析。 地理空间 图分析库 聚类分析 传统BI分析 分类分析 回归分析0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum介绍Greenplum数据库是基于PostgreSQL数据库的,所以 可以用PostgreSQL数据库的工具来连接Greenplum数 据库,如java程序可以使用PostgreSQL的jdbc驱动来 访问Greenplum数据库,也可以使用psql工具或 pgadminII来管理Greenplum。 Greenplum架构: Master介绍 Greenplum的Master数据库也是一个被改造过的 据库,数量等于实际的CPU的core数。 Greenplum架构: 内部网络 Segment host与master是通过greenplum的内部网络互 联起来的,外部用户不需要访问这个内部网络的。 Segment 与Segment之间是有网络连接的,所以 Segment之间可以直接交互数据的。 Greenplum默认使用UDP协议,不过我们发现UDP有 时不稳定,我们一般都使用TCP协议。使用TCP协议, 时不稳定,我们一般都使用TCP协议。使用TCP协议, greenplum最多1000个segment。 Greenplum中的高可用方案 Segment的mirror 当配置了segment mirror,当segment primary不能写 的时候,greenplum会自动切换到mirror。当master不 能连接到一个segment instance时,会把这个instance 标记为invalid。 Greenplum中的高可用方案0 码力 | 38 页 | 655.38 KB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP —— dbsync平台 7 数据仓库体系架构 数据架构示意图 8 数据仓库体系架构 架构的具体技术实现 • 轻量级数据仓库 —— Inforbright – 与MySQL数据库结合,易使用,冷热分离 – 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 greenplum的体系结构 14 greenplum体系架构 greenplum的体系结构 • greenplum的架构特点 Ø MPP ShareNothing 海量并行处理+完全无共享 Ø cpu计算能力 Ø 数据从Disk上的I/O吞吐性能 Ø master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载 (gpfdist+外部表,每小时4TB+)0 码力 | 43 页 | 9.66 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密(Encrypted) Data (decrypted) pgcypto pgcypto的问题 改变原有查询逻辑 • 不兼容现有查询语句 • 不兼容ETL工具 性能低 • 不支持索引 • 优化器无法使用,需要全表扫描 局限性高 • 多表关联查询需要先全表解密 • 只能加密表数据 pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 TDE GPDB透明加密 加密目标 • 表数据 • 预写日志数据 • 主从节点所有数据 • 索引及其他表辅助数据 • 磁盘缓存文件 设计目标 • 对用户和数据库透明 • 高性能,使用CPU加密指令集 • 内核原生 GPDB透明加密 加密 Planer TDE key Data (plain) Data (Encrypted) Executeor GPDB透明加密 解密 pruning calculating optimizing Data (Encrypted) TDE key GPDB数据透明加解密流程 秘钥管理 GPDB透明加密解析 GPDB TDE 使用三层key结构 • Master key: 加解密 major keys • Major keys: 加解密对应的 object keys • Object keys: 加解密对应的数据文件 秘钥管理0 码力 | 48 页 | 10.19 MB | 1 年前3
共 37 条
- 1
- 2
- 3
- 4













