多头潜层注意力 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 精粹文集

性能却远远超过传统高昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的（下面会分析为什么采用Postgresql，而不是mysql等等），但是 Postgresql 是单实例数据库，怎么能在多个 X86 服务器上运行多个 SQL-On-Hadoop 系统，例如 HAWQ、SPARK 均可单独增加计算层的节点或数据层的 HDFS 存储节点，HDFS 数据存储对计算层来说是透明的； MPP 数据库扩展时，一般情况下是计算节点和数据节点一起增加的，在增加节点后，需要对数据做重分布才能保证数据与节点的紧耦合（重新 Hash 数据），进而保证系统的性能；Hadoop 在增加存储层节点后，虽然也需要 Rebalance 数据，但相较 MPP 6 核以上（主频 2G HZ 以上），1 块 RAID 卡（单块 RAID 卡的 cache 大小 1GB 以上，并带有掉电保护功能）。 ·ETL 服务器最好和 Greenplum 接入相同的二层交换机，如果跨交换机，确保网络不存在性能瓶颈。 ·ETL 服务器网卡尽量选用万兆网卡，某香港航空公司曾抱怨 Greenplum 加载性能缓慢，结果发现加载时把所有 ETL 服务器的千兆网卡都打满了。

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

........................................................................................ - 17 - 网络层冗余 ................................................................................................. 编写：陈淼 - 15 - 网络层是 GP 系统的重要组件，在用户执行查询时，每个 Instance 都需要执行相应的处理，网络层涉及到 Instance 之间的通信和数据传输，网络层可以使用标准的以太网协议。不要认为网络只是连通作用，请按照 GP 的安装部署要求，必须使用万兆网络作为内部互联网络，否则，一定会遭受很多网络方面的困扰。在缺省情况下，网络层使用 UDPIFC 协议。这是经过改善的协议。冗余与故障切换 GP 提供了避免单点故障的部署选项。本节讲述 GP 的冗余组件。  Instance 镜像  Master 镜像  网络层冗余 Instance 镜像在部署 GP 系统时，可以选择配置 Mirror，如果初始化时没有配置 Mirror，后期也可以再次添加 Mirror，当然，如果要删除已有的

0 码力 | 416 页 | 6.08 MB | 1 年前
3
深度揭秘Greenplum开源数据库透明加密

pruning calculating optimizing Data (Encrypted) TDE key GPDB数据透明加解密流程秘钥管理 GPDB透明加密解析 GPDB TDE 使用三层key结构 • Master key: 加解密 major keys • Major keys: 加解密对应的 object keys • Object keys: 加解密对应的数据文件秘钥管理 • 加密的major key会被送进KMS中，由master key来解密，KMS只返回解密后的Major key. • 所有的object keys和major keys 存储于数据库本地. 三层key结构 GPDB透明加密解析 Master Key Major Keys Object Keys Encrypted table files Encrypted log files Encrypted

0 码力 | 48 页 | 10.19 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

⼯工作原理理 2017.thegiac.com C API (Greenplum, PostgreSQL, HAWQ) 底层抽象层 (数组操作、类型转换、数值计算库等) 数据库内建函数⽤用户接⼝口⾼高层抽象层 (迭代控制器器) 内循环函数 (实现机器器学习逻辑) Python SQL C++ MADlib 架构 2017.thegiac

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum on Kubernetes 容器化MPP数据库

Greenplum on Kubernetes Greenplum on Kubernetes ● 存储计算分离 ○ PV持久化存储资源 ○ StatefulSet/Pod弹性扩展计算资源 ● 数据库服务层 ○ Service统一Master & Standby Master地址 ● 服务发现机制 ○ 所有节点地址名不变 ● 跨云能力 ○ 容器应用对基础设施透明 Greenplum Operator

0 码力 | 33 页 | 1.93 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

Ø 列存储表 Ø 多种表类型结合 • 表的命名 Ø GP内所有名称都小写 Ø table_name命名要符合命名规则，做到见名知义 36 Greenplum开发规范用户与权限规范 • 四层授权保保障 Ø 角色 role ：管理数据库内对象权限 Ø 用户 user ：用户认证权限 Ø pg_hba.conf ：实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 •

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

Greenplum、PostgreSQL、MySQL 以及 Oracle 等主流数据库均采用拉模型。拉模型的每个算子都实现了从下层节点获取一条元组的 GetNext 函数，每次调用该函数都会从下层节点返回一条元组或者 EOF 的 NULL 指针。上层节点不断地调用 GetNext 函数从下层节点获取数据，直至数据全部获取完毕。火山模型 postgres=# explain select

0 码力 | 31 页 | 3.95 MB | 1 年前
3

共 7 条前往

页

分类

语言

格式

Greenplum 精粹文集

Greenplum Database 管理员指南 6.2.1

深度揭秘Greenplum开源数据库透明加密

Greenplum机器学习⼯具集和案例

Greenplum on Kubernetes 容器化MPP数据库

并行不悖- OLAP 在互联网公司的实践与思考

Greenplum 分布式数据库内核揭秘