模型管理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum资源管理器

2017 年象行中国（杭州站）第一期 Greenplum资源管理器姚珂男/Pivotal kyao@pivotal.io 2017 年象行中国（杭州站）第一期 Agenda • Greenplum数据库 • Resource Queue • Resource Group 2017 年象行中国（杭州站）第一期 Greenplum数据库 • 基于PostgreSQL • 分布式 corruption => PANIC 2017 年象行中国（杭州站）第一期 Resource Queue • Cost is tricky – 没有明确的定义 – 不同优化器不一致 – 优化器不能被纳入资源管理器 2017 年象行中国（杭州站）第一期 Resource Queue • Priority is rough – 不能精确控制CPU – CHECK_FOR_INTERRUPTS – BackoffBackendTick 空闲group配额会被抢占 – 精确控制 2017 年象行中国（杭州站）第一期 Resource Group • Memory – Not using CGroups – 重构resource queue内存管理 – 严格资源隔离 – statement_mem控制spill – 每个group内做redzone和runaway detection 2017 年象行中国（杭州站）第一期 Resource

0 码力 | 21 页 | 756.29 KB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

Greenplum Database 管理员指南 V6.2.1 版权所有：Esena(陈淼 +86 18616691889) 编写：陈淼 - 1 - Greenplum Database 管理员指南版本 V6.2.1 2020 年 09 月 27 日欢迎关注 Greenplum 官方微信公众号和加入官方社区技术讨论群： Greenplum 做各种补丁脚本，也看到了 Greenplum 的大幅进步，甚至我们以前的小技巧也不再需要，持续的进步，带来的是生态的蓬勃发展。 Greenplum Database 管理员指南 V6.2.1 版权所有：Esena(陈淼 +86 18616691889) 编写：陈淼 - 2 - 序言术语约定 GP ： Greenplum 数据库 Master 陈淼电邮： miaochen@mail.ustc.edu.cn Greenplum Database 管理员指南 V6.2.1 版权所有：Esena(陈淼 +86 18616691889) 编写：陈淼 - 3 - 目录 Greenplum Database 管理员指南 ...................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

1 新一代数据管理和数据分析解决方案关于Greenplum公司 • Greenplum是一家数据库软件公司，在数据处理和 BI/DW领域，提供容量最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥，加利福尼亚州，美国，成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站： www.greenplum 千万亿字节万亿字节千兆字节行业商务智能解决方案的实例政府电信金融服务公民服务国家安全电子政务法规实施和监管人力资本管理信息传播合规性报告资产组合分析客户报表电汇通知分部记分卡客户关系管理、收购和盈利率欺诈检测欺诈分析客户流失分析响应时间流量分析产品关联/捆绑零售存储运营分析客户忠诚度计划协作规划和预估 1995 2000 2005 2010 新一代数据库的要求传统数据库的要求今天的数据库供应商网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率数据库管理系统（DBMS）的规模/容量 11 需要采用一种新的方法 •“一切皆可商用”：商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum 精粹文集

Postgresql 数据库实例同时开展并行计算。而且，这些 Postgresql 之间采用 share- nothing 无共享架构，从而更将这种并行计算能力发挥到极致，除此之外，MPP 采用两阶段提交和全局事务管理机制来保证集群上分布式事务的一致性，Greenplum 像 Postgresql 一样满足关系型数据库的包括 ACID 在内的所有特征。从上图可以看到，Greenplum 的最小并行单元不是节点层级，而是在 IO 能力。 Greenplum 单个节点上运行能力比其它数据库也快很多，如果运行在多节点上，其提供性能几乎是线性的增长，这样一个集群提供的性能能够很轻易的达到传统数据库的数百倍甚至数千倍，所管理数据存储规模达到 100TB~ 数 PB，而你在硬件上的投入，仅仅是数台一般的 X86 服务器和普通的万兆交换机。 Big Date2.indd 6 16-11-22 还研发了非常多的高级数据分析管理功能和企业级管理模块，如下这些功能都是 Postgresql 没有提供的： ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror 镜像保护机制 ·资源队列管理 ·WEB/Brower

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

Confidential–Internal Use Only 卓越的OLAP特性列式存储分区、压缩高级特性递归查询、窗口函数集成分析多格式、多语言 Madlib: 机器学习数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器成熟稳定完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储表‘SALES’ 优化分布式大数据系统中特别复杂的查询 18 Madlib: 迭代并行模型训练 Master model = init(…) WHILE model not converged model = SELECT model.aggregation(…) FROM data table ENDWHILE 模型存储过程 … 广播 Segment 2 Segment Segment n … Transition 函数操作一小批数据并更新模型状态 1 Merge 函数 2 Final函数 3 Segment 1 19 Madlib: PageRank性能 Greenplum集群: ● 1 master ● 4*6 segment 50亿条链接 (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

copy加载数据外部表并⾏加载数据从hdfs加载数据从mysql中导⼊数据从oracle中导⼊数据从ufile加载数据开发指南开发指南 1、连接数据库 2、数据库管理 3、模式管理 4、表格设计 5、加载数据 6、分区表 7、序列 8、索引 9、 ANALYZE/VACUUM 10、常⽤SQL⼤全 12、常⽤SQL命令 13、⽤⼾⾃定义函数⽬录 Greenplum数据仓库接收客⼾端的连接请求负责权限认证处理 SQL 命令调度分发执⾏计划汇总 Segment 的执⾏结果并将结果返回给客⼾端 3. Compute Node： Compute Node 管理节点的计算和存储资源每个 Compute Node 由多个 Segment 组成 Segment 负责业务数据的存储、⽤⼾ SQL 的执⾏⾼可⽤⾼可⽤产品架构 Greenplum数据仓库际数据⼤⼩选择合适的节点。 3.设置数据仓库信息必选项有数据仓库名称、DB管理员⽤⼾名、管理员密码。可选项有默认DB,默认DB的名称为dev，你可以选择除了“test”、“postgres”、“template”、“template0”、“template1” 、 “default”之外的其他名称。 DB管理员⽤⼾名不能为“postgres”。端⼝固定为 5432，暂不提供修改。快速上⼿

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

shmmax = 1000000000  kernel.sem = 250 512000 100 2048  Redhat 6.2以后，内核增加了hugepage大页内存管理，关闭hugepage可以提高混合负载管理性能设置办法：修改local脚本 For SUSE /etc/init.d/boot.local For RHLE /etc/rc.d/rc.local um analyze一次 • 查询视图GP_TOOLKIT.GP_BLOAT_DIAG可监控垃圾空间的膨胀系数 • REINDEX:回收索引的垃圾空间 AGE监控和管理  PostgreSQL的MVCC事务语意依赖于比较事务ID(XID)的数值：一条带有大于当前事务的XID的插入 XID的行版本是―属于未来的‖，并且不应为当前事务可见。  PostgreSQL使用特殊的 1000000000， AGE大于10亿停止工作，等待vacuum执行数据库对象数上限的最佳实践  GPDB内部的对象：所有的表（包括分区表）、索引、视图等都称为对象  GPDB最佳实践所推荐的对象管理要求是：一个数据库内对象不要超过10 0000个  最佳实践是出于对系统性能和稳定性因素建议对pg_class 所维护的对象数进行约束  减少对象数的方法： – 提高分区粒度 –

0 码力 | 41 页 | 1.42 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

功能，策略配置淘汰的冷内存交换到用户态存储，用户无感知，性能优于内核态 swap。 2. 夯实云化基座容器操作系统 KubeOS：云原生场景，实现 OS 容器化部署、运维，提供与业务容器一致的基于 K8S 的管理体验。 • 安全容器方案：iSulad+shimv2+StratoVirt 安全容器方案，相比传统 docker+qemu 方案，底噪和启动时间优化 40%。 • 双平面部署工具 eqqo：ARM/X86 SQL，可以让服务器群集能够以单一数据超级计算机的方式运行，且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分析扩展功能支持 ANSI SQL，并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够管理各种规模的数据容量，数据量从数 GB 到数 PB 不等。 Greenplum 环境适用性强与其开放性、真正开源、社区活跃有密不可分的关系，一方面 Greenplum 能够独立于专用硬件 Database for Transactional and Analytical Workloads》1成功入选 SIGMOD 的收录论文，ACM SIGMOD 数据管理国际会议是由美国计算机协会 (ACM) 数据管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地位的国际性学术会议，SIGMOD 和另外两大数据库会议 VLDB、ICDE 构成了数据库领域的三个顶级会议，其论文录取率是很低的，平均录取率大约仅为

0 码力 | 17 页 | 2.04 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

greenplum的体系结构 • greenplum的架构特点 Ø MPP ShareNothing 海量并行处理+完全无共享 Ø cpu计算能力 Ø 数据从Disk上的I/O吞吐性能 Ø master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载（gpfdist+外部表，每小时4TB+） Ø 分布分区 Ø 数据压缩 Ø 外部访问初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系环境创建与部署 • 部署注意点 Ø 资源要充足（ETL，管理节点，数据节点，数据集市） Ø 万兆网络（网络环境对功能和性能的影响） Ø 节点规划（数据节点6-10个segment节点） Ø 参数调整（操作系统参数，greenplum集群参数） 24 36 Greenplum开发规范用户与权限规范 • 四层授权保保障 Ø 角色 role ：管理数据库内对象权限 Ø 用户 user ：用户认证权限 Ø pg_hba.conf ：实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 • 账号类型划分 Ø 管理账号 Ø 开发账号 Ø 调度账号 Ø 业务账号 Ø 测试账号 • 账号名称限定 Ø 所有都用小写字母加下划线的方式

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 架构概览

节点通常不存储数据，只作为数据库的⼊⼝对 Segment 进⾏管理；Standby Master 节点则为 Master 提供⾼可⽤⽀持；⽽ Segment 节点就是真正的⼯作节点，数据存储在此处，并且⼀个 Segment 节点上通常会有多个 PostgreSQL 实例 Master-Segment 和 Master- Slave 有何区别? 在 Master-Slave 模型下，Master 和 Slave 拥有相同的数据，并且数据。⽐如 MySQL 的主从模型、Redis 的主从模型在 Master-Segment 模型下，⾸先 Master 节点不存储数据，其次就是数据将会以分⽚的⽅式存储在多个 Segment 节点中。这⾥可以类⽐ Redis Cluster，只不过 Redis Cluster 是去中⼼化的。在 Master-Segment 模型中通常也会包含 Master-Slave 模型，也就是增加数据副本，以实现⾼可⽤基于⾏的存储⽅式，也可以选择基于列的存储⽅式，并且⽀持诸如 S3、HDFS 等外部存储 GP 基本查询流程 PostgreSQL 进程模型 PostgreSQL（以下简称 PG）采⽤的是经典的 C/S 模型，即 Client-Server 模型，同时使⽤多进程的⽅式⽀持并发查询与写⼊。也就是说，每当有⼀个客户端连接⾄ PG 时，就会有⼀个⼦进程被创建出来。postmaster 进程和

0 码力 | 1 页 | 734.79 KB | 1 年前
3

共 23 条前往

页

分类

语言

格式