Greenplum Database 管理员指南 6.2.1存储着一部分数据 (对于复制表来说,每个 Instance 存储一份完整的数据,这是 6 版本新引入的分布策 略),Instance 才是真正进行数据处理的地方。缺省情况下,用户不能跳过 Master 直接访问 Instance,而只能通过 Master 来访问整个数据库系统,不过,对于管理 员来说,有时需要使用 Utility 模式来访问 Instance,访问方法是: $ PGOPTIONS='-c 的利用网络带宽资源以实现高速并行装载。 上图展示了 GP 外部表和 gpfdist 是如何配合,以实现高速数据装载的,该模式 的性能是完全线性扩展的,数据直接在 gpfdist 和 Primary 之间并行传输,数据的 重分布直接在 Primary 之间完成,整个架构没有瓶颈点。 管理与监控 对 GP 系统的管理,可以通过一系列的命令行来实现,它们都存放在$GPHOME/bin 或 Group)。这些 Role 与运行在 OS 上的 Role 没有直接的关联关系。如果是出于便利考虑,可以选择使用与 OS Role 相 关联的 GP Role,这样对于一些缺省使用 OS User 名称作为 DB User 的应用来说会 有一点点便利性(这点便利微不足道),不过,往往不太需要这样的设计,因为极少有 需要直接在 Master 主机上来访问 GP 的情况存在。 在 GP 中0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum 精粹文集下午3:38 6 相信这些特点已经足够了,据说很多互联网公司采用 Mysql 来做 OLTP 的同时,却采用 Postgresql 来做内部的 OLAP 分析数据库,甚 至对新的 OLTP 系统也直接采用 Postgresql。 相比之下,Greenplum 更强悍,把 Postgresql 作为实例(该实例非 Oracle实例概念,这里指的是一个分布式子库架构在Interconnect下), 例如:行列表关系、Hash 分布、索引、分区、列存储等、统计信 息收集等,这就决定了在计算过程中效率大为不同: ·MAP 效率对比 Hadoop 的 MAP 阶段需要对数据再解析,而 MPP 数据库则会直接 取行列表,效率高。 Hadoop 按 64MB 拆分文件,而且数据不能保证在所有节点都均匀 分布,因此,MAP 过程的并行化程度低;MPP 数据库按照数据记 录拆分和 Hash 分布,粒度更细,数据分布在所有节点中非常均匀, 基于文件的的 Mapreduce 提高 10 倍;有的则采用 C/C++ 语言替 代 Java 语言重构 Hadoop 和 Mapreuce(如 MapR 公司及国内某 知名电商的大数据平台);而有些则直接绕开了 Mapreduce 另起 炉灶,如 Impala、hawq 采用借鉴 MPP 计算思想来做查询优化和 内存数据 Pipeline 计算,以此来提高性能。 虽然 SQL-On-Hadoop 比原始的0 码力 | 64 页 | 2.73 MB | 1 年前3
 深度揭秘Greenplum开源数据库透明加密一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb GPDB GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 运维模式 • 原厂服务,主机厂或者第三方运维 数据文件为明文二进制文件 • 直接通过Linux自带工具(strings, hexdump)访问 • pg_waldump可以直接读取并显示预写日志 潜在风险(三) GPDB的数据安全 数据需要加密 • 机密数据 • 知识产权保护 • 审计要求 用户数据存在直接暴露的风险 • 非部门员工运维(原厂,主机厂或者合作伙伴) • 事后审计难度很大 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 •0 码力 | 48 页 | 10.19 MB | 1 年前3
 Greenplum 6: 混合负载的理想数据平台(100s) (1s) (10K s) (1M s) 数据库内集成分析 GRAPHS Confidential & Proprietary “请找出这样的员工,在Pivotal工作,互相直接 认识, 有一个人名字听起来像是 ‘Peter’ 或者 ‘Pavan’ ,并且最近24小时从一个给定经纬度 的参考点方圆2KM的ATM机上取出了多于 $200的现金” drop function 计算给定经纬 度方圆2KM的范围 GPText.search() 函数可 以知道是否一个人在 Pivotal工作 Greenplum MADlib BFS 算法可以 知道两个之间是否有直接联系 Greenplum模糊字符串匹 配函数Soundex() 可以 知道姓名是否发音是 ‘Pavan’或‘Peter’ Greenplum Time 函数计算24 小时内的取款时间 金额 Greenplum在摩根士丹利 OLTP - Online transaction processing - 联机事务处理 出色的OLTP特性 天生的优势 ● 行式存储 ● 索引 ● 直接分发 ● 完整的增删改 Greenplum 6 增强 ● 并发修改、删除 ● 系统性的优化事务和锁 26 Pivotal Confidential–Internal Use Only 行式存储0 码力 | 52 页 | 4.48 MB | 1 年前3
 Pivotal Greenplum 最佳实践分享duler;do echo deadline > $i;done echo never > /sys/kernel/mm/transparent_hugepage/enabled 一般不建议直接修改/boot/grub/grub.conf文件或者/boot/grub/menu.lst 常用数据库参数 参数名 Master节点值 Segment节点值 checkpoint_segments Admin常用命令  数据库启动:gpstart  常用可选参数:-a:直接启动,不提示终端使用者输入确  -m:只启动master实例,主要在故障处理时使用 -R:进入限制模式,只有超级用户能访问,常用于系统维护  数据库停止:gpstop:  常用可选参数:-a:直接停止,不提示终端使用者输入确认 -m:只停止master实例,与gpstart Admin常用命令  查看数据库、表占用空间 – select pg_size_pretty(pg_relation_size(‗schema.tablename‘));(注:对于分区表的,不能直接应用于父表) – select pg_size_pretty(pg_database_size('databasename)); 注:必须在数据库所对应的存储系统里,保留30%作为临时空间0 码力 | 41 页 | 1.42 MB | 1 年前3
 并行不悖- OLAP 在互联网公司的实践与思考数据来源为OLTP库,针对小数据量传输和计算,部分实时交互操作 Ø 以对账业务为主,统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数 Ø 以重点业务线、活动数据、非OLTP业务数据的任务计算为主 • 公司IDC_03机房Greenplum体系 Ø 数据来源来源为OTLP库库,针对大数据量传输和计算,采用T+1方式 Greenplum开发规范 Greenplum使用规范 • 平时使用规范 Ø避免高频率的insert、update操作 Ø避免频繁执行高内存消耗的会话 Ø避免出现死锁 Ø可以在适当的时候执行 vaccum 操作 Ø避免直接在Greenplum执行消耗session会话的操作 Ø尽量不创建索引 • 上线与调度规范 Ø上线的程序,必须要经过测试,才可以生产使用 Ø调度程序需考虑每个任务的前后关系,时间富裕 Ø避免因为过于追求并行度,对多个任务造成相互影响 现有集群功能扩展方式 • 现有集群支撑能力 Ø 根据集群的支撑能力和规划,三年内有足够的空间和计算能力 Ø 如需扩展,有多种扩展方式可以选择 Ø 理论扩展方式,与建议扩展方式 • 常见扩展方式 Ø 对现有集群直接加服务器进行扩展(先要把握现有集群架构) Ø 在现有服务器和新服务器上,建立新集群然后扩展 Ø 新部署集群,与现有集群双跑运行,稳定扩展(建议方式) 42 Greenplum扩展规划 Greenplum集群规划0 码力 | 43 页 | 9.66 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商使⽤⽅法请参考我们的⽂档:外部表并⾏加载数据到udw 从 从hdfs加载数据 加载数据 为了⽅便udw和hdfs之间的数据导⼊和导出,我们提供个两种⽅案: 1. ⽤sqoop实现hdfs和udw直接的数据导⼊导出,使⽤⽅法请参考:hdfs和hive中数据导⼊导出到udw 2. 创建hdfs外部表,使⽤⽅法请参考:创建hdfs外部表 从 从mysql中导⼊数据 中导⼊数据 为了⽅便mysq 使⽤⽅法请参考我们的⽂档:外部表并⾏加载数据到udw 5.4 从 从hdfs加载数据 加载数据 为了⽅便 udw 和 hdfs 之间的数据导⼊和导出,我们提供个两种⽅案; 1. ⽤ sqoop 实现 hdfs 和 udw 直接的数据导⼊导出,使⽤⽅法请参考:hdfs和hive中数据导⼊导出到udw 2. 创建 hdfs 外部表,使⽤⽅法请参考:创建hdfs外部表 5.5 从 从mysql加载数据 加载数据 为了⽅便 mysql 2012-2021 UCloud 优刻得 131/206 表膨胀 表膨胀 表膨胀的原因 表膨胀的原因 udw的存储实现(MVCC-多版本并发控制)来⾃于Postgres。根据MVCC的原理,没有办法直接更新数据(更新操作(update)是通过先删除(delete)再插⼊(insert)实现的),被更新之前的⾏ 数据仍然在数据⽂件中。 如何避免表膨胀 如何避免表膨胀 ⽅法⼀: ⽅法⼀:vacuum0 码力 | 206 页 | 5.35 MB | 1 年前3
 Greenplum介绍都是连接master服务器的,对于外部用户来说,他并不 与segment host服务器发生任何关系,外部用户的网络 只需要与master服务器连通就可以了,不需要访问 segment host服务器。 所有的用户连接都是直接连接到master服务器上的。 Greenplum数据库是基于PostgreSQL数据库的,所以 可以用PostgreSQL数据库的工具来连接Greenplum数 据库,如java程序可以使用PostgreSQL的jdbc驱动来 Segment host与master是通过greenplum的内部网络互 联起来的,外部用户不需要访问这个内部网络的。 Segment 与Segment之间是有网络连接的,所以 Segment之间可以直接交互数据的。 Greenplum默认使用UDP协议,不过我们发现UDP有 时不稳定,我们一般都使用TCP协议。使用TCP协议, greenplum最多1000个segment。 Greenplum中的高可用方案0 码力 | 38 页 | 655.38 KB | 1 年前3
 Greenplum 新一代数据管理和数据分析解决方案曾经用来实现信息搜索功能的技术, 现在被Greenplum用于数据仓库 现在的解决方案 12 Greenplum愿景:企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险 源文件 源数据 源数据 源文件 数据仓库和分析应 用程序 Greenplum数据架构 商用硬件集群 scenario – 比较一:数据库客户端超过370万条记录的查询 – 比较二:通过BO报表工具查询2000万条销售结果报表 Oracle与Greenplum测试结果比较 比较一:370 万条记录直接 查询 比较二:2000 万条记录BO 报表查询 Oracle Greenplum 311秒 7156毫秒 Oracle Greenplum 7分4秒 8秒 GP比Oracle提升倍数0 码力 | 45 页 | 2.07 MB | 1 年前3
 PostgreSQL和Greenplum 数据库故障排查#log_statement_stats = off #session_preload_libraries = '' 2018年PostgreSQL中国技术大会 微信号:laohouzi999 如果看不到日志,直接前台运行 /usr/lib/postgresql/9.3/bin/postgres -D /var/lib/postgresql/9.3/main -c config_file=/etc/postgresql/90 码力 | 84 页 | 12.61 MB | 1 年前3
共 10 条
- 1
 













