Greenplum Database 管理员指南 6.2.1............................................................................... - 284 - 初始化 GP 数据库集群 .................................................................................................. .................. - 295 - 第十四章:开启高可用 .......................................................................................................... - 297 - GP 数据库高可用概述 ................................. ................................................................................ - 320 - 无 Mirror 集群恢复 ............................................................................................. - 3220 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 精粹文集这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 来 了, 在 X86 集 群 上 实 现 自 动 的 并 行 计 算, 无 论 是 后 来 的 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多 个 Postgresql 实例的高效协同和并行计算,Interconnect 承载了并行 查询计划生产和 Dispatch 分发(QD)、协调节点上 QE 执行器的并 行工作、负责数据分布、Pipeline0 码力 | 64 页 | 2.73 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum............................................................................................. 10 集群在线扩容 .............................................................................................. ................................................................................... 10 Greenplum 集群多站点复制 ............................................................................................. 安全容器方案:iSulad+shimv2+StratoVirt 安全容器方案,相比传统 docker+qemu 方案,底噪和启动时间 优化 40%。 • 双平面部署工具 eqqo:ARM/X86 双平面混合集群 0S 高效一键式安装,百节点部署时间<15min。 3. 探索场景创新 边缘计算:发布面向边缘计算场景的版本 openEuler21.09Edae.集成 KubeEdae+边云协同框架,具备边云应用统一管0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum介绍Greenplum的高可用方案 GP分布式数据库功能介绍 理解GP的查询处理 Greenplum VS hadoop 比较项 Greenplum Hadoop+hive 软件性质 商业软件 开源 集群规模 一般在100台以下 可以到上万台。 性能 在100台以下时,性能 比hadoop好。 单个SQL可以做到秒级 别 集群规模越大,总体性 稳定性 有较多的bug。 比较稳定。 Greenplum架构图 Segment Host Segment Host Segment Host Segment Host 高 速 以 太 网 交 换 机 Master Host Lan Client Host Greenplum架构: Master介绍 Master服务器是外面用户访问greenplum的入口。用户 nt。 Greenplum中的高可用方案 Segment的mirror 当配置了segment mirror,当segment primary不能写 的时候,greenplum会自动切换到mirror。当master不 能连接到一个segment instance时,会把这个instance 标记为invalid。 Greenplum中的高可用方案 默认情况下,greenplum的失败操作模式是“read-0 码力 | 38 页 | 655.38 KB | 1 年前3
Greenplum 分布式数据库内核揭秘Greenplum内核开发工程师 2022-03-16 李正龙 Confidential │ ©2021 VMware, Inc. Agenda 2 - Greenplum 分布式数据库简介 - Greenplum 集群化概述 - 分布式数据存储与多态存储 - 分布式查询优化器与执行器 - Greenplum 中文社区 3 Confidential │ ©2021 VMware, Inc. Greenplum ©2021 VMware, Inc. Greenplum 集群化概述 Coordinator/Segment, Primary/Mirror Confidential │ ©2021 VMware, Inc. 6 Greenplum 集群化概述 数据库的组成 l Coordinator/Segment 架构 l Greenplum 集群通常由一个 Coordinator 节点、一 个 Standby Coordinator 是整个数据库的入口,客户端只会连接 至 Coordinator 节点,并执行相关的查询操作 l Standby 节点为 Coordinator 提供高可用支持 l Mirror 则为 Segment 提供高可用支持 7 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据存储与多态存储 Hash/Randomly/Replicated0 码力 | 31 页 | 3.95 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考“过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 Ø事务大,频率相对小,并发低 • 未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 Greenplum现状说明 Greenplum集群现状概述 • 三大Greenplum集群体系 Ø 公司IDC_01机房Greenplum体系 Ø 公司IDC_02机房Greenplum体系 Ø 公司IDC_03机房Greenplum体系 • 服务器资源 Ø 三大Greenplum集群,共用 422 个postgresql实例 Ø 实例分布成为 28 个Greenplum集群或postgresql单实例0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum开源MPP数据库介绍2019年底跟随Pivotal被VMware收购 Confidential │ ©2022 VMware, Inc. 5 谁在用Greenplum? Ø 500多付费企业客户 Ø 成千上万的开源用户 Ø 支撑巨大的生产集群: q 250+ servers q 10+ PetaBytes Ø 十几个甚至几十个国内国外的衍生项 目(我们是真开源,欢迎大家贡献) Confidential │ ©2022 VMware 存储数据,share-nothing q 产生计算进程 Ø Libpq:控制信道 Ø Interconnect: 数据交换信道 Confidential │ ©2022 VMware, Inc. 8 Greenplum的高可用 Ø 数据存两份,Coordinator有standby Ø 自动同步数据 (WAL replication) Ø 自动灾难恢复 (FTS,主备切换) Confidential │ ©2022 Upsert, BRIN, JIT, … Confidential │ ©2022 VMware, Inc. 22 Greenplum 7的亮点:Greenplum to Greenplum Ø 集群间节点直传 Ø 一套纯SQL的API Ø 正在和其它分布式系统进行对接 23 谢谢!有问题吗?0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum 介绍, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 支持扩展(Extension)、自定义类型和函数、PXF 和外部表技术。可以使用多种语言实现用户自定义函数和聚集,包括 PL/Python、PL/R、 个版本,以前发布一个版本需要 1 个 月左右,现在只需要十几个小时。 ● 具备企业级稳定性的平台:Greenplum 经过十多年发展,有大量活跃客户,大量数百节点 集群为全球 2000 强企业生产系统提供服务,稳定性非常高。 ● 具备成熟生态系统的平台:Greenplum 生态非常完善,有大量的合作伙伴。 发展历程 Greenplum 公司成立于 2003 年,20080 码力 | 3 页 | 220.42 KB | 1 年前3
Pivotal Greenplum 最佳实践分享节点一般配置4~8个Instance,初始化完成后很 难修改,需要提前规划; • 每个Instance都是一套独立的进程,当客户端 发起一个请求时,每个Instance都将FORK子进 程并行工作; • 对于并发请求高、面向于复杂的灵活查询的系 统,建议每个Segment配置4个或以下Instance, 这样来保证每个Instance所需资源,保证系统 系统运行稳定性,例如,减少OOM发生的概率; • 对于以批处理、串行工作为主的系统,可以配 • 对于少数频繁查询的宽表,例如交易表、帐户表、客户表等采用列存储,其它表采用行存储 数据压缩: • 在金融业,行压缩的数据压缩比在1:6左右,一般采用zlib5级压缩 • 数据压缩对于高并发查询分析系统可以大幅降低IO消耗,提升并行处理、混合负载的性能 分布键使用: • 尽量采用一个常用关联字段作为分布键,例如账号、客户号,这个可以提高关联条件的命中率,减少关联时数据重分布 • 以数据批处理为主要功能的系统一般不需建索引 • 以并发查询为主要功能,特别OLTP查询(根据KEY,Attribute等作为筛选条件)的系统按照常用字段建索引。 • 建索引的方法:对于区别度高的字段,如账号、手机号码等使用B-Tree索引,对于区别度低的字段(<10000),采用 Bitmap索引; • 表关联时,一般不需要建索引,如果where条件的筛选性很强,建立索引可以让系统性能提升0 码力 | 41 页 | 1.42 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密Admin • 管理集群 • 数据备份恢复 运行模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 管理模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 数据备份恢复 管理模式 GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 GPDB为单独数据库软件 • 非一体机 • 缺少对硬件和系统的控制 潜在风险(一) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 需要登录到系统进行运维 • 可以访问数据库二进制文件 • 可以访问数据库数据文件 • 可以访问预写日志文件 潜在风险(二) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 运维模式 • 原厂服务,主机厂或者第三方运维 数据文件为明文二进制文件 • 直接通过Linux自带工具(strings, hexdump)访问 • pg_waldump可以直接读取并显示预写日志 潜在风险(三) GPDB的数据安全 数据需要加密 • 机密数据 • 知识产权保护0 码力 | 48 页 | 10.19 MB | 1 年前3
共 23 条
- 1
- 2
- 3













