Greenplum 精粹文集较多的精力来模式化你的数据,节省数据模型设计和数据加载设计 方面的投入。这些系统包括:历史数据系统、ETL 临时数据区、数 据交换平台等等。 切记,千万不要为了大数据而大数据(就好像不要为了创新而创新一 个道理),否则,你项目最后的产出与你的最初设想可能 将差之千里,行业内不乏失败案例。 最后,提一下,GreenplumMPP 数据库支持用“Hadoop 外部表“方 式来访问、加载 HadoopFS 的数据,虽然 Greenplum 物流、互联网和制造业当中,在几百个 Greemplum 数据库中运行的 数据就像奔腾的石油,滚滚而来,不断输送到各个不同的战线。 今天的大数据再也不是几年前热炒的概念,越来越多的客户开始 从 MPP 项目开始着手,逐渐利用混搭的技术来构造未来的数据之 湖。但是毫无疑问的是,MPP 数据库市场的迅速发展过程也见证了 Greenplum 在中国的成长之路。 自 2008 年 12 月进入中国,到目前为止,在国内已经发展了将近两百 户所理解与接受。作为中国大数据市场的探路先锋,Pivotal 将以一个 我们亲力打造的大数据项目为例,与大家一起分享 Greenplum 在项目 实施过程中为客户创造的那些真实的价值,如何与客户一起开拓大数 据之路。 在国内某大型金融机构的大数据处理平台,使用 Greenplum 数据库产 品支撑其 ODS 及各类集市应用。项目从 2013 年 6 月份开始到 2015 年底,生产环境已经由最初的一套集群发展到0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1和相关技术领域,主要工作职责是 售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 Greenplum 多年前,编者翻译了 GP4.2.2 的 AdminGuide,如今,GP 已经历经了无数个版 本更新和迭代,编者也有了更多的感悟,放眼 GP 的中文资料,为之动容,就想着再为 GP 的发展壮大多做那么一点点贡献,挤出一点时间,重新梳理和打磨这个文档,并完 全根据最新的版本特性进行重新整理,希望能对中文爱好者提供一些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 - DB 应用程序接口 若需要开发针对GP的应用程序,PostgreSQL提供的一些通用的API同样可以应用 在GP上。这些驱动包并没有与GP一起发布,而是一些独立的项目,需要单独下载和安 装配置从而连接GP。有下面这些驱动可以获取: API PostgreSQL Driver 下载连接 ODBC pgodbc 可以从 GP 或者 PG 的官网获得。0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 最佳实践分享Greenplum运维常用命令 Greenplum日常检查和故障处理 Greenplum项目经验分享 目录 Greenplum运维常见问题 Greenplum运维常用命令 Greenplum日常检查和故障处理 Greenplum项目经验分享 内核参数 通常情况下,内核参数按照GPDB安装手册配置,如需要增加连接数支持,以下参数需要增大 到一定阀值才收集统计信息; – gp_autostats_mode = on_change – gp_autostats_on_change_threshold = 5000000(资料依据项目而定) Truncate操作不会丢失字段级统计信息,在适当条件下可仅针对系统字段执行Analyze 垃圾空间回收 • GPDB采用MVCC机制,UPDATE 或 DELETE并非物理删除,而只是对无效记 Number:4 CCB设置以上参数后,基本上没有OOM发生,唯一遇到的是left join超大表(400亿条记录)导致的,用户已优化SQL 资源队列设置没有一个统一的标准,具体的参数设置需要根据项目的实际运行情况, 可以通过gp_toolkit.gp_resqueue_status 观察到队列的使用情况,逐步调整参数到最优状态。 角色组和权限管理 在GPDB中,对象权限0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum 编译安装和调试attach 到已经运行的进程。 首先启动 clion,导入 Greenplum 源代码项目。clion 需要 CMakeLists.txt 文件构建工程项目。将 下面的 CMakeLists.txt 放到 Greenplum 源代码目录的顶层目录中,再启动 clion 既可建立合适的 工程项目。 $ cat CMakeLists.txt cmake_minimum_required(VERSION0 码力 | 15 页 | 2.07 MB | 1 年前3
Brin Index主Greenplum 7中的理论与实现1 Confidential │ ©2021 VMware, Inc. Greenplum中文社区 https://cn.greenplum.org 博文 · 资料 · 文档 · 项目 Confidential │ ©2021 VMware, Inc. 3 Confidential │ ©2021 VMware, Inc. Brin Index 在Greenplum0 码力 | 32 页 | 1.04 MB | 1 年前3
Greenplum上云与优化Runtime 本地存储 >5-30倍的性能优势 2016Postgres中国用户大会 ApsaraDB for GP vs. AWS Redshift? “有史以来卖的最好的云服务” 对比项目 ApsaraDB for Greenplum(SSD/SATA) AWS RedShift 外部表 支持OSS外部表 无此设计 地理信息支持 支持(自带PostGIS) 不支持 分区表支持 支持0 码力 | 26 页 | 1.13 MB | 1 年前3
Greenplum开源MPP数据库介绍Confidential │ ©2022 VMware, Inc. 4 Greenplum的历史 Ø 2003年,Luke Lonergan 和 Scott Yara 发起 Greenplum项目,从 PostgreSQL 8 分支,做成 MPP架构 Ø 2010年被EMC收购 Ø 2012年成为Pivotal的一部分 Ø 2015年开源,可能是世界上第一个成熟商用的开源 MPP数据仓库0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum 介绍向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL 接口进行数据分析,大大降低了数据分 析的门槛;MADlib 内建于数据库内,使用0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum分布式事务和两阶段提交协议Greenplum中文社区 https://cn.greenplum.org 博文 资料 文档 项目 全新的问答论坛 分布式事务和 两阶段提交协议 6 ● 事务实现原理和Write Ahead Logging(WAL) ● 分布式事务和两阶段提交的原理 ● Greenplum两阶段提交协议的实现 ● Greenplum两阶段提交协议的优化 Outline 7 事务的属性:ACID0 码力 | 42 页 | 2.12 MB | 1 年前3
Greenplum 排序算法Greenplum中文社区 https://cn.greenplum.org 博文 · 资料 · 文档 · 项目 Greenplum内核揭秘之排序算法 5 ● 内排序算法 ● 外排序算法 ● Greenplum TupleSort ● 排序在Greenplum中的应用 Outline 6 ● 冒泡排序 ● 插入排序 ● 快速排序 ● 堆排序 ● 基数排序 内排序算法0 码力 | 52 页 | 2.05 MB | 1 年前3
共 13 条
- 1
- 2













