 Greenplum 精粹文集性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个 SQL-On-Hadoop 系统,例如 HAWQ、SPARK 均可单独增加 计算层的节点或数据层的 HDFS 存储节点,HDFS 数据存储对计算 层来说是透明的; MPP 数据库扩展时,一般情况下是计算节点和数据节点一起增加 的,在增加节点后,需要对数据做重分布才能保证数据与节点的紧 耦合(重新 Hash 数据),进而保证系统的性能;Hadoop 在增加 存储层节点后,虽然也需要 Rebalance 数据,但相较 MPP 6 核以上(主频 2G HZ 以上),1 块 RAID 卡(单块 RAID 卡的 cache 大小 1GB 以上,并带有掉电保护功能 )。 ·ETL 服务器最好和 Greenplum 接入相同的二层交换机,如果跨交 换机,确保网络不存在性能瓶颈。 ·ETL 服务器网卡尽量选用万兆网卡,某香港航空公司曾抱怨 Greenplum 加载性能缓慢,结果发现加载时把所有 ETL 服务器的 千兆网卡都打满了。0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个 SQL-On-Hadoop 系统,例如 HAWQ、SPARK 均可单独增加 计算层的节点或数据层的 HDFS 存储节点,HDFS 数据存储对计算 层来说是透明的; MPP 数据库扩展时,一般情况下是计算节点和数据节点一起增加 的,在增加节点后,需要对数据做重分布才能保证数据与节点的紧 耦合(重新 Hash 数据),进而保证系统的性能;Hadoop 在增加 存储层节点后,虽然也需要 Rebalance 数据,但相较 MPP 6 核以上(主频 2G HZ 以上),1 块 RAID 卡(单块 RAID 卡的 cache 大小 1GB 以上,并带有掉电保护功能 )。 ·ETL 服务器最好和 Greenplum 接入相同的二层交换机,如果跨交 换机,确保网络不存在性能瓶颈。 ·ETL 服务器网卡尽量选用万兆网卡,某香港航空公司曾抱怨 Greenplum 加载性能缓慢,结果发现加载时把所有 ETL 服务器的 千兆网卡都打满了。0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum Database 管理员指南 6.2.1........................................................................................ - 17 - 网络层冗余 ................................................................................................. 编写:陈淼 - 15 - 网络层是 GP 系统的重要组件,在用户执行查询时,每个 Instance 都需要执行相 应的处理,网络层涉及到 Instance 之间的通信和数据传输,网络层可以使用标准的 以太网协议。不要认为网络只是连通作用,请按照 GP 的安装部署要求,必须使用万兆 网络作为内部互联网络,否则,一定会遭受很多网络方面的困扰。 在缺省情况下,网络层使用 UDPIFC 协议。这是经过改善的 协议。 冗余与故障切换 GP 提供了避免单点故障的部署选项。本节讲述 GP 的冗余组件。  Instance 镜像  Master 镜像  网络层冗余 Instance 镜像 在部署 GP 系统时,可以选择配置 Mirror,如果初始化时没有配置 Mirror,后 期也可以再次添加 Mirror,当然,如果要删除已有的0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1........................................................................................ - 17 - 网络层冗余 ................................................................................................. 编写:陈淼 - 15 - 网络层是 GP 系统的重要组件,在用户执行查询时,每个 Instance 都需要执行相 应的处理,网络层涉及到 Instance 之间的通信和数据传输,网络层可以使用标准的 以太网协议。不要认为网络只是连通作用,请按照 GP 的安装部署要求,必须使用万兆 网络作为内部互联网络,否则,一定会遭受很多网络方面的困扰。 在缺省情况下,网络层使用 UDPIFC 协议。这是经过改善的 协议。 冗余与故障切换 GP 提供了避免单点故障的部署选项。本节讲述 GP 的冗余组件。  Instance 镜像  Master 镜像  网络层冗余 Instance 镜像 在部署 GP 系统时,可以选择配置 Mirror,如果初始化时没有配置 Mirror,后 期也可以再次添加 Mirror,当然,如果要删除已有的0 码力 | 416 页 | 6.08 MB | 1 年前3
 深度揭秘Greenplum开源数据库透明加密pruning calculating optimizing Data (Encrypted) TDE key GPDB数据透明加解密流程 秘钥管理 GPDB透明加密解析 GPDB TDE 使用三层key结构 • Master key: 加解密 major keys • Major keys: 加解密对应的 object keys • Object keys: 加解密对应的数据文件 秘钥管理 • 加密的major key会被送进KMS中,由master key来解密,KMS只返回解密后的Major key. • 所有的object keys和major keys 存储于数据库本地. 三层key结构 GPDB透明加密解析 Master Key Major Keys Object Keys Encrypted table files Encrypted log files Encrypted0 码力 | 48 页 | 10.19 MB | 1 年前3 深度揭秘Greenplum开源数据库透明加密pruning calculating optimizing Data (Encrypted) TDE key GPDB数据透明加解密流程 秘钥管理 GPDB透明加密解析 GPDB TDE 使用三层key结构 • Master key: 加解密 major keys • Major keys: 加解密对应的 object keys • Object keys: 加解密对应的数据文件 秘钥管理 • 加密的major key会被送进KMS中,由master key来解密,KMS只返回解密后的Major key. • 所有的object keys和major keys 存储于数据库本地. 三层key结构 GPDB透明加密解析 Master Key Major Keys Object Keys Encrypted table files Encrypted log files Encrypted0 码力 | 48 页 | 10.19 MB | 1 年前3
 Greenplum机器学习⼯具集和案例⼯工作原理理 2017.thegiac.com C API (Greenplum, PostgreSQL, HAWQ) 底层抽象层 (数组操作、类型转换、数值计算库等) 数据库内建函 数 ⽤用户接⼝口 ⾼高层抽象层 (迭代控制器器) 内循环函数 (实现机器器学习逻辑) Python SQL C++ MADlib 架构 2017.thegiac0 码力 | 58 页 | 1.97 MB | 1 年前3 Greenplum机器学习⼯具集和案例⼯工作原理理 2017.thegiac.com C API (Greenplum, PostgreSQL, HAWQ) 底层抽象层 (数组操作、类型转换、数值计算库等) 数据库内建函 数 ⽤用户接⼝口 ⾼高层抽象层 (迭代控制器器) 内循环函数 (实现机器器学习逻辑) Python SQL C++ MADlib 架构 2017.thegiac0 码力 | 58 页 | 1.97 MB | 1 年前3
 Greenplum on Kubernetes
容器化MPP数据库Greenplum on Kubernetes Greenplum on Kubernetes ● 存储计算分离 ○ PV持久化存储资源 ○ StatefulSet/Pod弹性扩展计算资源 ● 数据库服务层 ○ Service统一Master & Standby Master地址 ● 服务发现机制 ○ 所有节点地址名不变 ● 跨云能力 ○ 容器应用对基础设施透明 Greenplum Operator0 码力 | 33 页 | 1.93 MB | 1 年前3 Greenplum on Kubernetes
容器化MPP数据库Greenplum on Kubernetes Greenplum on Kubernetes ● 存储计算分离 ○ PV持久化存储资源 ○ StatefulSet/Pod弹性扩展计算资源 ● 数据库服务层 ○ Service统一Master & Standby Master地址 ● 服务发现机制 ○ 所有节点地址名不变 ● 跨云能力 ○ 容器应用对基础设施透明 Greenplum Operator0 码力 | 33 页 | 1.93 MB | 1 年前3
 并行不悖- OLAP 在互联网公司的实践与思考Ø 列存储表 Ø 多种表类型结合 • 表的命名 Ø GP内所有名称都小写 Ø table_name命名要符合命名规则,做到见名知义 36 Greenplum开发规范 用户与权限规范 • 四层授权保保障 Ø 角色 role : 管理数据库内对象权限 Ø 用户 user : 用户认证权限 Ø pg_hba.conf : 实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 •0 码力 | 43 页 | 9.66 MB | 1 年前3 并行不悖- OLAP 在互联网公司的实践与思考Ø 列存储表 Ø 多种表类型结合 • 表的命名 Ø GP内所有名称都小写 Ø table_name命名要符合命名规则,做到见名知义 36 Greenplum开发规范 用户与权限规范 • 四层授权保保障 Ø 角色 role : 管理数据库内对象权限 Ø 用户 user : 用户认证权限 Ø pg_hba.conf : 实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 •0 码力 | 43 页 | 9.66 MB | 1 年前3
 Greenplum 分布式数据库内核揭秘Greenplum、PostgreSQL、MySQL 以及 Oracle 等主流数据库均采用拉模型。 拉模型的每个算子都实现了从下层节点获取一条元组的 GetNext 函数,每次调用该函数都会从下 层节点返回一条元组或者 EOF 的 NULL 指针。上层节点不断地调用 GetNext 函数从下层节点获 取数据,直至数据全部获取完毕。 火山模型 postgres=# explain select0 码力 | 31 页 | 3.95 MB | 1 年前3 Greenplum 分布式数据库内核揭秘Greenplum、PostgreSQL、MySQL 以及 Oracle 等主流数据库均采用拉模型。 拉模型的每个算子都实现了从下层节点获取一条元组的 GetNext 函数,每次调用该函数都会从下 层节点返回一条元组或者 EOF 的 NULL 指针。上层节点不断地调用 GetNext 函数从下层节点获 取数据,直至数据全部获取完毕。 火山模型 postgres=# explain select0 码力 | 31 页 | 3.95 MB | 1 年前3
共 7 条
- 1













