Greenplum资源管理器2017 年象行中国(杭州 站)第一期 Greenplum资源管理器 姚珂男/Pivotal kyao@pivotal.io 2017 年象行中国(杭州 站)第一期 Agenda • Greenplum数据库 • Resource Queue • Resource Group 2017 年象行中国(杭州 站)第一期 Greenplum数据库 • 基于PostgreSQL • 分布式 corruption => PANIC 2017 年象行中国(杭州 站)第一期 Resource Queue • Cost is tricky – 没有明确的定义 – 不同优化器不一致 – 优化器不能被纳入资源管理器 2017 年象行中国(杭州 站)第一期 Resource Queue • Priority is rough – 不能精确控制CPU – CHECK_FOR_INTERRUPTS – BackoffBackendTick 空闲group配额会被抢占 – 精确控制 2017 年象行中国(杭州 站)第一期 Resource Group • Memory – Not using CGroups – 重构resource queue内存管理 – 严格资源隔离 – statement_mem控制spill – 每个group内做redzone和runaway detection 2017 年象行中国(杭州 站)第一期 Resource0 码力 | 21 页 | 756.29 KB | 1 年前3
Greenplum Database 管理员指南 6.2.1Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 1 - Greenplum Database 管理员指南 版本 V6.2.1 2020 年 09 月 27 日 欢迎关注 Greenplum 官方微信公众号和加入官方社区技术讨论群: Greenplum 做各种补丁 脚本,也看到了 Greenplum 的大幅进步,甚至我们以前的小技巧也不再需要,持续的 进步,带来的是生态的蓬勃发展。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 2 - 序言 术语约定 GP : Greenplum 数据库 Master 陈淼 电邮: miaochen@mail.ustc.edu.cn Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 3 - 目录 Greenplum Database 管理员指南 ...................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案1 新一代数据管理和数据分析 解决方案 关于Greenplum公司 • Greenplum是一家数据库软件公司,在数据处理和 BI/DW领域,提供容量 最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥,加利福尼亚州,美国,成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站: www.greenplum 千万亿字节 万亿字节 千兆字节 行业商务智能解决方案的实例 政府 电信 金融服务 公民服务 国家安全 电子政务 法规实施和监管 人力资本管理 信息传播 合规性报告 资产组合分析 客户报表 电汇通知 分部记分卡 客户关系管理、收 购和盈利率 欺诈检测 欺诈分析 客户流失分析 响应时间 流量分析 产品关联/捆绑 零售 存储运营分析 客户忠诚度计划 协作规划和预估 1995 2000 2005 2010 新一代数据库的要求 传统数据库的要求 今天的数据库供应商 网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率 数据库管理系统(DBMS)的 规模/容量 11 需要采用一种新的方法 •“一切皆可商用”:商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议Write Ahead Logging + 存储管理 Jim Gray于1981年VLDB描述了事务的原子性、一致性和持久性,在此基础上,Haerder和Reuter在1983年中提出了事务的隔离性并提出术语 “ACID”,自此,事务的ACID四个性质成为业内标准术语 8 Disk-Oriented DBMS Components 数据库管理系统组成图 Hector Garcia-Molina Ullman/Jennifer Widom《数据库系统实现》 查询编译器/ 优化器 事务管理器 DDL编译器 执行引擎 日志和恢复 并发控制 索引/文件/ 记录管理器 缓冲区管理器 缓冲区 锁表 存储管理器 存储 查询计划 对索引、文件和 记录的请求 页命令 事务命令 查询、更新 用户/ 应用 DDL命令 数据库管理员 数据、元数据、索引 日志页 读、写页 元数据、 统计数据 元数据 Force: 事务提交时,所修改的页面必须强制刷回到持久存储中 No-Force: 事务提交时,所修改的页面不需要强制刷回到持久存储中 ■ Steal / No-Steal Steal: 允许Buffer Pool里未提交事务所修改的脏页刷回到持久存储 No-steal: 不允许Buffer Pool里未提交事务所修改的脏页刷到持久存储中 缓冲区管理策略Buffer Management0 码力 | 42 页 | 2.12 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum功能,策略配置淘汰的冷内存交换到用户态存储,用户无感知,性能 优于内核态 swap。 2. 夯实云化基座 容器操作系统 KubeOS:云原生场景,实现 OS 容器化部署、运维,提供与业务容器一致的基于 K8S 的管理体验。 • 安全容器方案:iSulad+shimv2+StratoVirt 安全容器方案,相比传统 docker+qemu 方案,底噪和启动时间 优化 40%。 • 双平面部署工具 eqqo:ARM/X86 SQL,可以让服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚 至数百倍。其多种分析扩展功能支持 ANSI SQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够 管理各种规模的数据容量,数据量从数 GB 到数 PB 不等。 Greenplum 环境适用性强与其开放性、真正开源、社区活跃有密不可分的关系,一方面 Greenplum 能够独立于专用 硬件 Database for Transactional and Analytical Workloads》1成功入选 SIGMOD 的收录论文,ACM SIGMOD 数据管理国际会议是由美国计算机协会 (ACM) 数据管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地位的国际性学术会议,SIGMOD 和另外 两大数据库会议 VLDB、ICDE 构成了数据库领域的三个顶级会议,其论文录取率是很低的,平均录取率大约仅为0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum开源MPP数据库介绍Confidential │ ©2022 VMware, Inc. 7 执行架构 Interconnect Client Ø Coordinator: q 管理其它节点 q 生成分布式计划 q 下发计划和汇总结果 q 管理分布式事务 Ø Segments: q 存储数据,share-nothing q 产生计算进程 Ø Libpq:控制信道 Ø Interconnect: 数据交换信道 amt numeric) DISTRIBUTED BY (id) PARTITION BY RANGE(sdate) ... Ø Heap: 源自PG,固定页面 大小, 适合OLTP Ø Append Optimized: 没有 页面的概念,变长,行存、 列存、压缩,适合OLAP Ø 外部表: HDFS,S3,文件, 网络,命令,流式数据… Confidential │ ©2022 Languages/Container Confidential │ ©2022 VMware, Inc. 19 GPCC Greenplum Command Center Ø Web UI 监控和管理 Ø 实时性能监控 Ø 可视化计划 Ø 基于规则的任务管理 Ø 向客户推荐性能优化操作 Ø 报警和通知 Confidential │ ©2022 VMware, Inc. 20 Greenplum Streaming0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum 精粹文集Postgresql 数 据库实例同时开展并行计算。而且,这些 Postgresql 之间采用 share- nothing 无共享架构,从而更将这种并行计算能力发挥到极致,除此之 外,MPP 采用两阶段提交和全局事务管理机制来保证集群上分布式事 务的一致性,Greenplum 像 Postgresql 一样满足关系型数据库的包括 ACID 在内的所有特征。 从上图可以看到,Greenplum 的最小并行单元不是节点层级,而是在 IO 能力。 Greenplum 单个节点上运行能力比其它数据库也快很多,如果运行在 多节点上,其提供性能几乎是线性的增长,这样一个集群提供的性能 能够很轻易的达到传统数据库的数百倍甚至数千倍,所管理数据存储 规模达到 100TB~ 数 PB,而你在硬件上的投入,仅仅是数台一般的 X86 服务器和普通的万兆交换机。 Big Date2.indd 6 16-11-22 还研发了非常多的高级数据分析管理功能和企业级管理模 块,如下这些功能都是 Postgresql 没有提供的: ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror 镜像保护机制 ·资源队列管理 ·WEB/Brower0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum on Kubernetes
容器化MPP数据库数据共享 ● 云数据库市场巨大 ● 云数据库增速巨大 ● DBasS的需求 ● 跨云的需求 云数据库实现方案 云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云 云数据库实现方案 ● 全新数据库 ○ Snowflake 容器化Greenplum部署策略 ○ Master部署策略 ○ Primary Segment部署策略 ○ Mirror Segment部署策略 ● 容器化Greenplum运维管理 ○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU Mirror Segment部署策略 ● 容器化Greenplum运维管理 ○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性 容器化分布式应用程序公共问题 容器网络管理 容器资源管理 容器镜像管理 容器调度 容器监控及自 定义操作 容器存储管理 容器化Greenplum ● 容器粒度 ○ Segment主机0 码力 | 33 页 | 1.93 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 运行模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 管理模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 业务审计 System Admin • 管理集群 • 数据备份恢复 管理模式 GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 GPDB为单独数据库软件 • 非一体机 • 缺少对硬件和系统的控制 潜在风险(一) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 需要登录到系统进行运维 • 可以访问数据库二进制文件 可以访问数据库二进制文件 • 可以访问数据库数据文件 • 可以访问预写日志文件 潜在风险(二) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 运维模式 • 原厂服务,主机厂或者第三方运维 数据文件为明文二进制文件 • 直接通过Linux自带工具(strings, hexdump)访问 • pg_waldump可以直接读取并显示预写日志 潜在风险(三) GPDB的数据安全0 码力 | 48 页 | 10.19 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台Greenplum 5:新一代数据平台 作为重要的新版本,Pivotal Greenplum 5 带来了多项产品改进和新增功能,在管理数据和对数据库中存储的信息应用数据 科学、分析、报告和数据洞察方法方面,这些功能对大多数客户都很有帮助。Greenplum 解决方案的架构设计目的是管理 非常复杂的查询,以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分 析扩展功能支持 ANSI SQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够管理各种规模的数据卷,数 据量从数 GB 到数 PB 不等。 pivotal.io/cn 白皮书 4 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 Manager 管理并发性能和用户资源分配是 Greenplum 的主要功能之一。这一版本不仅增强了 Workload Manager 的功能,还引入了 一种管理数据库查询的新方法——资源组,可让数据库管理员更好地控制用户活动,尤其是在 CPU 和内存管理方面。资 源组一经定义,便会将所有用户活动纳入管理范围,包括超级用户。某个超级用户执行的所有语句都会路由至一个默认资 源组,管理员可以根据需要调0 码力 | 9 页 | 690.33 KB | 1 年前3
共 22 条
- 1
- 2
- 3













