Greenplum 精粹文集无共享架构,从而更将这种并行计算能力发挥到极致,除此之 外,MPP 采用两阶段提交和全局事务管理机制来保证集群上分布式事 务的一致性,Greenplum 像 Postgresql 一样满足关系型数据库的包括 ACID 在内的所有特征。 从上图可以看到,Greenplum 的最小并行单元不是节点层级,而是在 实例层级。安装过 Greenplum 的同学应该都看到每个实例都有自己 的 Postgresql 目录结构,都有各自的一套 的特性,SQL-On-Hadoop 大多不 支持数据局部更新和删除功能 (update/delete);例如 Spark 计算时, 需要预先将数据装载到 DataFrames 模型中; 基本上都缺少索引和存储过程等特征 除 HAWQ 外,大多对于 ODBC/JDBC/DBI/OLEDB/.NET 接口的支持 有限,与主流第三方 BI 报表工具的兼容性不如 MPP 数据库 SQL-On-Hadoop 不擅长于交互式(interactive)的 开放性的特性给客户带来的好处,不只是硬件厂商和型号的选择范围, 也包含工程实施过程的便利性。2014 年,该客户大数据平台需要进行 数据搬迁,Greenplum 采用了旧环境数据备份、传输、新环境恢复的 方案,停机时间实际只花了不到 4 天。 相比较而言,其他封闭式系统,需要压缩并备份数据,倒腾出整套设 备搬迁到新数据中心,然后再导入新数据,影响或暂停业务几十天。 两种方案从工程复杂度、人力投入、业务影响来说,开放式架构所带0 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台5:新一代数据平台 关于本白皮书 Pivotal 最近推出全球第一个开源、支持多云的高级分析数据平台——Pivotal Greenplum 5。本白皮书着眼介绍 Greenplum 5 的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 Python 版本升级为 2.7。PL/Python 和 Python 管理实用程序现在均以版本 2.7 为基础。 总结 Greenplum 5 是 Pivotal 推出的新一代数据平台,在对经过十几年工程设计投入的产品进行改进的同时带来了多项新功能, 可以帮助组织满足其企业数据仓库和高级分析需求。这个新版本扩充了客户的部署选项,除了目前支持的本地平台以外, 还获得了其他几种云平台的认证。它提供了一个0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum Database 管理员指南 6.2.1系,可以根据用户的实际需求进行评估和实施。 目前,编者的一键式集群配置安装初始化命令已经内置了两种镜像模式,分别为 RING 和 PAIR。RING 是一种带有环状关系的镜像模式,典型的特征是,一组机器形成 对等的环,环上的每台机器,其对应的 Mirror 会散落在后面的一台或者多台机器上, 这种模式包含了 gpinitsystem 命令缺省支持的两种镜像模式:GROUP 和 SPREAD。 第二章:分布式数据库概念 GP 是一个分布式数据库集群系统。这就意味着在物理上,数据是存储在多个数据 库上的(称为 Instance)。这些独立的数据库通过网络进行通信(称为内联网络)。分 布式数据库的一个基本特征是,用户和客户端程序在访问时如同访问一个单机数据库 (GP 访问 Master)一样方便,数据库内部的分布式实现不需要用户过多的关心,对于 客户端应用来说,访问 GP 数据库与单机数据库没有什么区别。不过,对于开发人员和 是唯一性最好的字段,但是,不建议为了选择一个分布键而去增加一个主键,这是一种 逻辑颠倒的做法,通常,应该选择一个常用于大表之间关联的某个唯一性较高的字段作 为分布键,一般这个字段可能在其他某个表中具有主键特征,例如,客户 ID,例如会 员卡号,例如手机号码,例如身份证号码,等等,在选择分布键时,仅需要考虑大表与 大表之间的关联,任何涉及到小表关联的场景均不应作为选择分布键的考虑因素。 如果可以,0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum机器学习⼯具集和案例- 营销 - 在线注册 - ⽹网⻚页浏览历史 - 地理理信息数据 - 业务部⻔门信息 - ⽹网站⽤用户信息 • TB 级别数据 • 1000+ 特征 平台 建模⼯工具 PL/pgSQL 数据和技术预览 2017.thegiac.com 数据整理理 数据准备 信息价值和证据权 重 成对相关性 删除⾼高度相关变量量 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 特征⽣生成 验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 逻辑回归 Elastic Net 特征选择 模型 1 2 3 4 5 6 改进后的 in-database 流程 2017.thegiac ⾏行行代码 ● 75 分钟 ● 116 ⾏行行代码 ● 8 分钟 9.35x 特征编辑 ● 439 特征 ● 4,517 ⾏行行代码 ● 100 分钟 ● 934 特征 ● 1,438 ⾏行行代码 ● 30 分钟 多 495 个特征,快 3.33x 信息价值 ● ~450 个变量量,~30分 钟计算结果并写⼊入 excel0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 编译安装和调试到已经运行的进程。 首先启动 clion,导入 Greenplum 源代码项目。clion 需要 CMakeLists.txt 文件构建工程项目。将 下面的 CMakeLists.txt 放到 Greenplum 源代码目录的顶层目录中,再启动 clion 既可建立合适的 工程项目。 $ cat CMakeLists.txt cmake_minimum_required(VERSION 3.8)0 码力 | 15 页 | 2.07 MB | 1 年前3
Brin Index主Greenplum 7中的理论与实现VMware, Inc. 3 Confidential │ ©2021 VMware, Inc. Brin Index 在Greenplum 7中的 理论与实践 陈金豹,VMWare内核工程师 Confidential │ ©2021 VMware, Inc. 目录 Brin Index On Heap AppendOnly Table Brin在AppendOnly Table上的实现0 码力 | 32 页 | 1.04 MB | 1 年前3
Greenplum开源MPP数据库介绍Greenplum 开源MPP数据仓库介绍 李晓亮Greenplum工程师、内核团队经理 Confidential │ ©2022 VMware, Inc. 2 Agenda Ø Greenplum简介 Ø Greenplum的MPP架构 Ø 分布式优化器: Postgres planner 和 ORCA Ø 分布式事务和执行 Ø Greenplum存储 0 码力 | 23 页 | 4.55 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密深度揭秘Greenplum开源数据库 透明加密 Greenplum 研发工程师 王淏舟 1. 我们所面临的问题 2. 基于pgcypto的数据加密方案 3. GPDB数据透明加密方案设计 4. GPDB数据透明加解密流程 5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署0 码力 | 48 页 | 10.19 MB | 1 年前3
Greenplum 分布式数据库内核揭秘Confidential │ ©2021 VMware, Inc. Greenplum 分布式数 据库内核揭秘 Greenplum内核开发工程师 2022-03-16 李正龙 Confidential │ ©2021 VMware, Inc. Agenda 2 - Greenplum 分布式数据库简介 - Greenplum 集群化概述 - 分布式数据存储与多态存储 - 分布式查询优化器与执行器0 码力 | 31 页 | 3.95 MB | 1 年前3
共 9 条
- 1













