直接寻址 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum Database 管理员指南 6.2.1

存储着一部分数据 (对于复制表来说，每个 Instance 存储一份完整的数据，这是 6 版本新引入的分布策略)，Instance 才是真正进行数据处理的地方。缺省情况下，用户不能跳过 Master 直接访问 Instance，而只能通过 Master 来访问整个数据库系统，不过，对于管理员来说，有时需要使用 Utility 模式来访问 Instance，访问方法是： $ PGOPTIONS='-c 的利用网络带宽资源以实现高速并行装载。上图展示了 GP 外部表和 gpfdist 是如何配合，以实现高速数据装载的，该模式的性能是完全线性扩展的，数据直接在 gpfdist 和 Primary 之间并行传输，数据的重分布直接在 Primary 之间完成，整个架构没有瓶颈点。管理与监控对 GP 系统的管理，可以通过一系列的命令行来实现，它们都存放在$GPHOME/bin 或 Group)。这些 Role 与运行在 OS 上的 Role 没有直接的关联关系。如果是出于便利考虑，可以选择使用与 OS Role 相关联的 GP Role，这样对于一些缺省使用 OS User 名称作为 DB User 的应用来说会有一点点便利性(这点便利微不足道)，不过，往往不太需要这样的设计，因为极少有需要直接在 Master 主机上来访问 GP 的情况存在。在 GP 中

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

下午3:38 6 相信这些特点已经足够了，据说很多互联网公司采用 Mysql 来做 OLTP 的同时，却采用 Postgresql 来做内部的 OLAP 分析数据库，甚至对新的 OLTP 系统也直接采用 Postgresql。相比之下，Greenplum 更强悍，把 Postgresql 作为实例（该实例非 Oracle实例概念，这里指的是一个分布式子库架构在Interconnect下），例如：行列表关系、Hash 分布、索引、分区、列存储等、统计信息收集等，这就决定了在计算过程中效率大为不同： ·MAP 效率对比 Hadoop 的 MAP 阶段需要对数据再解析，而 MPP 数据库则会直接取行列表，效率高。 Hadoop 按 64MB 拆分文件，而且数据不能保证在所有节点都均匀分布，因此，MAP 过程的并行化程度低；MPP 数据库按照数据记录拆分和 Hash 分布，粒度更细，数据分布在所有节点中非常均匀，基于文件的的 Mapreduce 提高 10 倍；有的则采用 C/C++ 语言替代 Java 语言重构 Hadoop 和 Mapreuce（如 MapR 公司及国内某知名电商的大数据平台）；而有些则直接绕开了 Mapreduce 另起炉灶，如 Impala、hawq 采用借鉴 MPP 计算思想来做查询优化和内存数据 Pipeline 计算，以此来提高性能。虽然 SQL-On-Hadoop 比原始的

0 码力 | 64 页 | 2.73 MB | 1 年前
3
深度揭秘Greenplum开源数据库透明加密

一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb GPDB GPDB的数据安全用户 • 连接数据库 • 运行业务 DBA • 管理数据库运维模式 • 原厂服务，主机厂或者第三方运维数据文件为明文二进制文件 • 直接通过Linux自带工具（strings, hexdump）访问 • pg_waldump可以直接读取并显示预写日志潜在风险（三） GPDB的数据安全数据需要加密 • 机密数据 • 知识产权保护 • 审计要求用户数据存在直接暴露的风险 • 非部门员工运维（原厂，主机厂或者合作伙伴） • 事后审计难度很大支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall pgcypto的问题一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 •

0 码力 | 48 页 | 10.19 MB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

(100s) (1s) (10K s) (1M s) 数据库内集成分析 GRAPHS Confidential & Proprietary “请找出这样的员工，在Pivotal工作，互相直接认识，有一个人名字听起来像是 ‘Peter’ 或者 ‘Pavan’ ，并且最近24小时从一个给定经纬度的参考点方圆2KM的ATM机上取出了多于 $200的现金” drop function 计算给定经纬度方圆2KM的范围 GPText.search() 函数可以知道是否一个人在 Pivotal工作 Greenplum MADlib BFS 算法可以知道两个之间是否有直接联系 Greenplum模糊字符串匹配函数Soundex() 可以知道姓名是否发音是 ‘Pavan’或‘Peter’ Greenplum Time 函数计算24 小时内的取款时间金额 Greenplum在摩根士丹利 OLTP - Online transaction processing - 联机事务处理出色的OLTP特性天生的优势 ● 行式存储 ● 索引 ● 直接分发 ● 完整的增删改 Greenplum 6 增强 ● 并发修改、删除 ● 系统性的优化事务和锁 26 Pivotal Confidential–Internal Use Only 行式存储

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

duler;do echo deadline > $i;done echo never > /sys/kernel/mm/transparent_hugepage/enabled 一般不建议直接修改/boot/grub/grub.conf文件或者/boot/grub/menu.lst 常用数据库参数参数名 Master节点值 Segment节点值 checkpoint_segments Admin常用命令  数据库启动：gpstart  常用可选参数：-a:直接启动，不提示终端使用者输入确  -m:只启动master实例，主要在故障处理时使用 -R:进入限制模式，只有超级用户能访问，常用于系统维护  数据库停止：gpstop：  常用可选参数：-a：直接停止，不提示终端使用者输入确认 -m：只停止master实例，与gpstart Admin常用命令  查看数据库、表占用空间 – select pg_size_pretty(pg_relation_size(‗schema.tablename‘));(注：对于分区表的，不能直接应用于父表) – select pg_size_pretty(pg_database_size('databasename)); 注：必须在数据库所对应的存储系统里，保留30%作为临时空间

0 码力 | 41 页 | 1.42 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

数据来源为OLTP库，针对小数据量传输和计算，部分实时交互操作 Ø 以对账业务为主，统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务，不直接从数据库传数 Ø 以重点业务线、活动数据、非OLTP业务数据的任务计算为主 • 公司IDC_03机房Greenplum体系 Ø 数据来源来源为OTLP库库，针对大数据量传输和计算，采用T+1方式 Greenplum开发规范 Greenplum使用规范 • 平时使用规范 Ø避免高频率的insert、update操作 Ø避免频繁执行高内存消耗的会话 Ø避免出现死锁 Ø可以在适当的时候执行 vaccum 操作 Ø避免直接在Greenplum执行消耗session会话的操作 Ø尽量不创建索引 • 上线与调度规范 Ø上线的程序，必须要经过测试，才可以生产使用 Ø调度程序需考虑每个任务的前后关系，时间富裕 Ø避免因为过于追求并行度，对多个任务造成相互影响现有集群功能扩展方式 • 现有集群支撑能力 Ø 根据集群的支撑能力和规划，三年内有足够的空间和计算能力 Ø 如需扩展，有多种扩展方式可以选择 Ø 理论扩展方式，与建议扩展方式 • 常见扩展方式 Ø 对现有集群直接加服务器进行扩展（先要把握现有集群架构） Ø 在现有服务器和新服务器上，建立新集群然后扩展 Ø 新部署集群，与现有集群双跑运行，稳定扩展（建议方式） 42 Greenplum扩展规划 Greenplum集群规划

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

使⽤⽅法请参考我们的⽂档：外部表并⾏加载数据到udw 从从hdfs加载数据加载数据为了⽅便udw和hdfs之间的数据导⼊和导出，我们提供个两种⽅案： 1. ⽤sqoop实现hdfs和udw直接的数据导⼊导出，使⽤⽅法请参考：hdfs和hive中数据导⼊导出到udw 2. 创建hdfs外部表，使⽤⽅法请参考：创建hdfs外部表从从mysql中导⼊数据中导⼊数据为了⽅便mysq 使⽤⽅法请参考我们的⽂档：外部表并⾏加载数据到udw 5.4 从从hdfs加载数据加载数据为了⽅便 udw 和 hdfs 之间的数据导⼊和导出，我们提供个两种⽅案； 1. ⽤ sqoop 实现 hdfs 和 udw 直接的数据导⼊导出，使⽤⽅法请参考：hdfs和hive中数据导⼊导出到udw 2. 创建 hdfs 外部表，使⽤⽅法请参考：创建hdfs外部表 5.5 从从mysql加载数据加载数据为了⽅便 mysql 2012-2021 UCloud 优刻得 131/206 表膨胀表膨胀表膨胀的原因表膨胀的原因 udw的存储实现(MVCC-多版本并发控制)来⾃于Postgres。根据MVCC的原理，没有办法直接更新数据(更新操作(update)是通过先删除(delete)再插⼊(insert)实现的)，被更新之前的⾏数据仍然在数据⽂件中。如何避免表膨胀如何避免表膨胀⽅法⼀：⽅法⼀：vacuum

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum介绍

都是连接master服务器的，对于外部用户来说，他并不与segment host服务器发生任何关系，外部用户的网络只需要与master服务器连通就可以了，不需要访问 segment host服务器。所有的用户连接都是直接连接到master服务器上的。 Greenplum数据库是基于PostgreSQL数据库的，所以可以用PostgreSQL数据库的工具来连接Greenplum数据库，如java程序可以使用PostgreSQL的jdbc驱动来 Segment host与master是通过greenplum的内部网络互联起来的，外部用户不需要访问这个内部网络的。 Segment 与Segment之间是有网络连接的，所以 Segment之间可以直接交互数据的。 Greenplum默认使用UDP协议，不过我们发现UDP有时不稳定，我们一般都使用TCP协议。使用TCP协议， greenplum最多1000个segment。 Greenplum中的高可用方案

0 码力 | 38 页 | 655.38 KB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

曾经用来实现信息搜索功能的技术，现在被Greenplum用于数据仓库现在的解决方案 12 Greenplum愿景：企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险源文件源数据源数据源文件数据仓库和分析应用程序 Greenplum数据架构商用硬件集群 scenario – 比较一：数据库客户端超过370万条记录的查询 – 比较二：通过BO报表工具查询2000万条销售结果报表 Oracle与Greenplum测试结果比较比较一：370 万条记录直接查询比较二：2000 万条记录BO 报表查询 Oracle Greenplum 311秒 7156毫秒 Oracle Greenplum 7分4秒 8秒 GP比Oracle提升倍数

0 码力 | 45 页 | 2.07 MB | 1 年前
3
PostgreSQL和Greenplum 数据库故障排查

#log_statement_stats = off #session_preload_libraries = '' 2018年PostgreSQL中国技术大会微信号：laohouzi999 如果看不到日志，直接前台运行 /usr/lib/postgresql/9.3/bin/postgres -D /var/lib/postgresql/9.3/main -c config_file=/etc/postgresql/9

0 码力 | 84 页 | 12.61 MB | 1 年前
3

共 10 条前往

页

分类

语言

格式

Greenplum Database 管理员指南 6.2.1

Greenplum 精粹文集

深度揭秘Greenplum开源数据库透明加密

Greenplum 6: 混合负载的理想数据平台

Pivotal Greenplum 最佳实践分享

并行不悖- OLAP 在互联网公司的实践与思考

Greenplum数据仓库UDW - UCloud中立云计算服务商

Greenplum介绍

Greenplum 新一代数据管理和数据分析解决方案

PostgreSQL和Greenplum 数据库故障排查