Greenplum Database 管理员指南 6.2.1长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 Greenplum 的 成长,见证了 Greenplum 从闭源到开源的成长历程,一路给 Greenplum 做各种补丁 脚本,也看到了 Greenplum 的大幅进步,甚至我们以前的小技巧也不再需要,持续的 进步,带来的是生态的蓬勃发展。 Greenplum ................................................................................... - 176 - 配置自由空间映射 .................................................................................................. 集群 中同时使用两种管理方案。 在初始化数据库时,缺省启用的是资源队列方案。在使用资源队列的时候,可以创 建和管理分配资源组(不是完全没有限制的,例如不能设置CPUSET),但要真正启用资 源组方案,必须明确的启用资源组,且需要重启数据库以使其生效。 下表列举了资源队列和资源组之间的差异: 功能点 资源队列 资源组 并发 查询语句级别的控制 事务级别的控制 CPU0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商优刻得 71/206 ssh -C -f -N -g -L 5432:10.10.10.1:5432 root@10.10.0.9 备注:请注意开放外⽹防⽕墙端⼝ 5432(也可以把 udw 端⼝映射到 uhost上其他端⼝上),⽹络防⽕墙配置请参考: https://docs.ucloud.cn/unet/firewall/introduction 2.2 SQL Workbench/J SQL Copyright © 2012-2021 UCloud 优刻得 111/206 CREATE CAST (源类型 AS ⽬标类型) WITH FUNCTION 函数名 (参数类型) [ AS ASSIGNMENT | AS IMPLICIT ] CREATE CAST (源类型 AS ⽬标类型) WITHOUT FUNCTION [ AS ASSIGNMENT | AS 描述: 删除⼀个类型转换 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 116/206 语法: DROP CAST (源类型 AS ⽬标类型) [ CASCADE | RESTRICT ] 命令: DROP DATABASE 描述: 删除⼀个数据库 语法: DROP DATABASE 名字 命令: DROP0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum 分布式数据库内核揭秘哈希分布是分布式数据库最为常用的数据分布方式。根据用户自定义的分布键计算哈希值,然后将 哈希结果映射到某个 Segment 上。在 Greenplum 6 中,默认采用一致性哈希(Jump Consistent Hash)分布策略。 哈希分布 当增加一个新的节点时,需要对原有数据进行重新映射。一致性哈希则保证了在重新映射的过程追 中,tuple 要么保留在原有节点中,要么迁移至新的节点中,从而实现最小数据迁移。 Append-Optimized 的基础之 上按列进行存储,可对其使用不同的压缩算法进行压缩,对聚合查询有着天然的优势。 l 外部表:外部表的数据存储在外部,Greenplum 仅管理其元数据,支持多种外部数据源,例如 S3、HDFS、文件、Gemfire,以及多种数据格式譬如 Text、CSV、Avro、Parquet 等。 多态存储 Confidential │ ©2021 VMware, Inc.0 码力 | 31 页 | 3.95 MB | 1 年前3
Greenplum on Kubernetes
容器化MPP数据库Kubernetes Greenplum Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 → 半结构化/无模式 ○ 数据隔离 → 数据共享 ● 云数据库市场巨大 ● 云数据库增速巨大 ● DBasS的需求 ● 跨云的需求 云数据库实现方案 ● Pod持久存储 ○ 通过PVC申请PV存储资源 ● StatefulSet ○ Pod网络地址不变 ○ Pod与PV映射关系不变 Kubernetes 网络资源 Service ● Service ○ 定义统一网络地址 ○ 分布式应用程序路由映射 ○ 负载均衡器 Greenplum on Kubernetes Network Interconnect Standby Pod0 码力 | 33 页 | 1.93 MB | 1 年前3
Pivotal Greenplum 最佳实践分享all用truncate代替,truncate无需回收垃圾空间 垃圾空间回收 Vacuum:标记垃圾空间为可再利用 Vacuum用于将数据表垃圾空间标记到FSM(自由空间映射),一般也不回收空间,当往该表插入新数据时,数据库会重 新这些空间。 FSM驻留在内存中,FSM的大小必须足够标记数据库中的所有过期记录。如果尺寸不够大,超出自由映像空间的过期记录 占用 基于gpfdist和外部表实现,比基于命名管道的gptransfer更稳定高效 两个集群之间必须互相网络连通 集群之间无需ssh互信 源端与目标端对象名称可不一致 条件源端过滤,降低带条件场景的网络压力 源端可以是视图,自劢识别是否使用快速模式 命令可部署在可在集群外执行 自劢识别低速模式,快速模式和全速模式 可指定并发数(同时多张表传0 码力 | 41 页 | 1.42 MB | 1 年前3
PostgreSQL和Greenplum 数据库故障排查的 OS用户(注:不是数据库用户)就能使用本用户映射的数据库用户不需密码 登录数据库。 很多初学者都会遇到psql -U username登录数据库却出现“username ident 认证失败”的错误,明明数据库用户已经createuser。 原因就在于此,使用了ident认证方式,却没有同名的操作系统用户或没 有相应的映射用户。 md5 密码是以md5形式0 码力 | 84 页 | 12.61 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案Greenplum愿景:企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险 源文件 源数据 源数据 源文件 数据仓库和分析应 用程序 Greenplum数据架构 商用硬件集群 分析 数据 市场 企业数 据仓库 企业数据集合:主要的优势 • 实体整合 • 提高服务器使用率 • – 性价比: 性能可达到传统方案(Oracle、Teradata)的 10到100倍, 而成本只是其一小部分 – 可伸缩性:从较低的万亿字节扩展到千万亿字节 – 开放式系统:在通用系统和开放源软件的基础上创建 前提条件 – 硬件:基于开放式标准硬件 – 软件:Postgres和Greenplum – 体系架构:海量并行处理体系,针对商务智能/数据仓库 进行了优化,解决了所有数据流瓶颈问题 •海量基础数据 •大数据量查询 Oracle 加工数据 •门户网站 •高并发查询 。。。。。。 用户信息 Hardware Architecture 案例分享:上海航空 结算 系统 源系统 Oracle GreenPlum 结算 ETL Staging ETL 结算 ODS Export 文 本 Query (oracle native driver) BO前端 呼叫0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 介绍了硬件平台的制约和绑定, 从而允许客户灵活选择最适合的方案,降低未来的迁移代价,而开发、运维人员无需要学 习新的数据库处理技术,人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台:支持各种数据源,包括 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支 SQL、JDBC 和 ODBC 等行业标准。经过半个多世纪的发展, SQL 成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum机器学习⼯具集和案例Compatibility (Hyper-Q) 2017.thegiac.com Greenplum ⼤大数据平台 • 一次打包,到处运行:裸机、私有云、公有云 • 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 某⼤大型跨国多元 化传媒和娱乐公 司 ● 简化Data 流程 ● 在Madlib上重新建 模和预测 ● 实现流程全⾃自动化 背景 2017.thegiac.com 数据源 • 客户数据 - 购买 - 预定 - 营销 - 在线注册 - ⽹网⻚页浏览历史 - 地理理信息数据 - 业务部⻔门信息 - ⽹网站⽤用户信息 建⽴立scoring pipeline, 对新访问 的安全性进⾏行行评估 ● 使⽤用可视化⼯工具对 结果进⾏行行更更好地呈 现 背景 2017.thegiac.com 数据源 • 数据 - API 访问⽇日志 - 客户数据 • 45 天区域数据 • 50亿条数据 • 上百万订购者 平台 建模⼯工具0 码力 | 58 页 | 1.97 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台从最新版本(未来 的 PostgreSQL 9.X 和 10)中纳入 PostgreSQL 新增功能。 新一代 数据平台 IT 人员 开发 人员 业务 分析师 数据 科学家 灵活 部署 数据源和数据管道 Spring Cloud Data Flow ETL 本地存储 HDFSS 云对象 存储 GemFire Spark 其他 RDBMSes 多结构数据 PIVOTAL GREENPLUM Manager 的功能,还引入了 一种管理数据库查询的新方法——资源组,可让数据库管理员更好地控制用户活动,尤其是在 CPU 和内存管理方面。资 源组一经定义,便会将所有用户活动纳入管理范围,包括超级用户。某个超级用户执行的所有语句都会路由至一个默认资 源组,管理员可以根据需要调整该资源组,增加或减少其系统资源。如果队列中没有可用于某个查询的空位,或者内存不 足以运行该查询,它会自动排队,直到有能够成功执行的资源为止。0 码力 | 9 页 | 690.33 KB | 1 年前3
共 14 条
- 1
- 2













