网表文件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 精粹文集

SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于 GFS 分布式文件系统，另外一篇是关于 MapReduce 并行计算框架的理论，分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 由此，业界认识到对于海量数据需要一种新的计算模式来支持，这种模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。当时，开放的X86服务器技术已经能很好的支持商用，借助高速网络（当时是千兆以太网）组建的 X86 集群在整体上提供的计算能力已大幅高于传统 SMP 主机，并且成本很低，横向的扩展性还可带来系统良好的成长性。问题来了，在 X86 集群上实现自动的并行 MPP（海量并行处理）计算框架，最终还是需要软件来实现，Greenplum 正是在这一背景下产生的，借助于分布式计算思想，Greenplum 实现了基于数据库的分布式数据存储和并行计算（GoogleMapReduce 实现的是基于文件的分布式数据存储和计算，我们会在后面比较这两种方法的优劣性）。话说当年 Greenplum（当时还是一个 Startup 公司，创始人家门口有一棵青梅 ——greenplum，因此而得名）召集了十几位业界大咖（据

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

........................................................................... - 34 - 编辑 pg_hba.conf 文件 ....................................................................................... - 35 - 限制并发连接数量 ....................... - 85 - 创建与管理表空间 ............................................................................................................ - 85 - 创建文件空间 ................................... ..................................... - 86 - 转移临时文件或事务文件的位置 ............................................................................ - 87 - 创建表空间 ................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

连接关系系统 Ø 编译执行系统 Ø 存储执行系统 Ø 事务系统 Ø 系统表 • pg逻辑和物理结构 Ø instance实例 - user - tablesapce Ø database - schema - table,view,function - data row Ø 物理文件 - oid - 表空间 - 数据文件命名 12 greenplum体系架构 greenplum的体系结构数据从Disk上的I/O吞吐性能 Ø master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载（gpfdist+外部表，每小时4TB+） Ø 分布分区 Ø 数据压缩 Ø 外部访问 15 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系 • 公司IDC_01机房Greenplum体系 Ø 公司第一套Greenplum集群，网络环境为千兆网 Ø 数据来源为OLTP库，针对小数据量传输和计算，部分实时交互操作 Ø 以对账业务为主，统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务，不直接从数据库传数 Ø 以重点业务线、活动数据、非OLTP业务数据的任务计算为主 • 公司IDC_03机房Greenplum体系

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

Greenplum愿景：企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险源文件源数据源数据源文件数据仓库和分析应用程序 Greenplum数据架构商用硬件集群分析数据市场企业数据仓库企业数据集合：主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本客户实例：福克斯互动媒体（Fox Interactive Media） • 业务问题 • 改进定位广告 • 竞争对手 • Teradata, Oracle • 数据规模 • 1万亿行事实数据表，每天增加 3TB • 硬件 • 40节点的Sun数据仓库设备 • 优势 • 可以通过控制支持快速膨胀的数据集 “Greenplum将成为我们不可或缺的合作伙伴，因为我们需要不断更新数据操作方式，使用户和广告商 - 2521897 rows 结论：超过6亿条历史数据导入，用时少于1.5小时，性能非常卓越。 • 全表扫描测试 – DWA测试环境：针对表C（372844366 rows）进行全表扫描，历时少于1.5 分钟。 – 客户投产环境：针对表C的一个子表（记录数约为C表的1/10）进行全表扫描，历时超过20分钟。结论：如果采用DWA替代现有环境，获得超过120倍的性能提升。 • 真实应用测试

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum 介绍

戴尔、福特、爱立信等，国内客户包括深交所、建设银行、民生银行、广大银行、浦发银行、航旅纵横、中国移动、华为等。自 2015 年开源以来，更是吸引了包括阿里云、百度云、中移动、旷世、去哪儿网、易观、腾云科技、饿了么、金风科技在内大量开源用户。 Greenplum 大数据平台的优势 ● 一次打包到处运行的平台：部署灵活，不受限于硬件环境和平台，无论裸机、私有云、公有云均可习新的数据库处理技术，人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台：支持各种数据源，包括 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等，不需要移动数据，避免了数据加载的复杂性，和其带来的数据不一致的问题。 ● 支持各种数据格式的平台：不管是结构化、半结构化（XML、JSON、KV）还是非结构化，譬如文本数据、GIS 数据、图数据等。具有强大的内核技术，包括数据水平分布、并行查询执行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台：支持扩展（Extension）、自定义类型和函数、PXF 和外部表技术。可以使用多种语言实现用户自定义函数和聚集，包括 PL/Python、PL/R、 PL/Java、PL/Perl、PL/PGSQL 和 C 等。 ● 支持标准的平台：支持 SQL、JDBC 和

0 码力 | 3 页 | 220.42 KB | 1 年前
3
Greenplum机器学习⼯具集和案例

一次打包，到处运行：裸机、私有云、公有云 • 各种数据源：Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式：结构化、半结构化（JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展：PL/X、Extension、PXF、外部表机制 • 完善的标准支持：SQL、JDBC、ODBC • 集模和预测 ● 实现流程全⾃自动化背景 2017.thegiac.com 数据源 • 客户数据 - 购买 - 预定 - 营销 - 在线注册 - ⽹网⻚页浏览历史 - 地理理信息数据 - 业务部⻔门信息 - ⽹网站⽤用户信息 • TB 级别数据 • 1000+ 特征平台建模⼯工具 PL/pgSQL

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum介绍

有较多的bug。比较稳定。 Greenplum架构图 Segment Host Segment Host Segment Host Segment Host 高速以太网交换机 Master Host Lan Client Host Greenplum架构: Master介绍 Master服务器是外面用户访问greenplum的入口。用户随机分布：数据随机分布在数据库，每次查询都会查询所有的 segment。 GP的SQL支持程度基本上绝大多数PostgreSQL支持的SQL，在 greenplum都支持，如常见的建表、建索引的ddl，以及一般的dml语句。 Greenplum3.X不支持表空间。4.0提供了支持 tablespace功能。不支持trigger。建表语句多了distributed by 子名外，其它的SQL语法基本上都与PostgreSQL一样： varchar(40), prod_id integer, supplier_id integer) DISTRIBUTED BY (prod_id); GP的表增强 greenplum除支持普通的表外，还增加了PostgreSQL 中没有的表类型： append-only table: CREATE TABLE bar (a int, b text) WITH (appendonly=true)

0 码力 | 38 页 | 655.38 KB | 1 年前
3
Greenplum上云与优化

Redshift? “有史以来卖的最好的云服务” 对比项目 ApsaraDB for Greenplum(SSD/SATA) AWS RedShift 外部表支持OSS外部表无此设计地理信息支持支持（自带PostGIS）不支持分区表支持支持不支持数据类型支持所有PostgreSQL 9.0以下类型支持11个PostgreSQL类型横向扩容支持支持，需要停机（数分钟） for GP架构 ApsaraDB for GP 主节点子节点子节点子节点子节点子节点子节点子节点子节点万兆网（同交换机）物理机（SSD/SATA） 2016Postgres中国用户大会支持OSS外部表读写主节点子节点子节点子节点子节点子节点子节点子节点子节点 Insert into T_GP Select my_udf(name)

0 码力 | 26 页 | 1.13 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

> $i;done echo never > /sys/kernel/mm/transparent_hugepage/enabled 一般不建议直接修改/boot/grub/grub.conf文件或者/boot/grub/menu.lst 常用数据库参数参数名 Master节点值 Segment节点值 checkpoint_segments 32 32 max_connections M22 统计信息收集  对于系统表和用户表需要收集统计信息，GPDB的查询计划是cost base的，统计信息的准确性对查询计划的优劣有很大影响；  对于字段数较多的表，可关闭gp_autostate_mode (on_no_stats=>none)，仅对必要列执行Analyze，只在结果中返回的列无需收集统计信息；  对于频繁创建表删表的系统，可关闭gp_autostate_mode(on_no_stats=> all用truncate代替，truncate无需回收垃圾空间垃圾空间回收  Vacuum：标记垃圾空间为可再利用 Vacuum用于将数据表垃圾空间标记到FSM（自由空间映射），一般也不回收空间，当往该表插入新数据时，数据库会重新这些空间。 FSM驻留在内存中，FSM的大小必须足够标记数据库中的所有过期记录。如果尺寸不够大,超出自由映像空间的过期记录占用

0 码力 | 41 页 | 1.42 MB | 1 年前
3
Greenplum备份恢复浅析

[--rsyncable] 2017 年象行中国（杭州站）第一期 gpcrondump⽤法(2/3) gpcrondump命令使用-K 来指定唯一时间戳来标示某个备份集文件，其中如果当前备份目录中存在更未来的备份集，则备份报错。 gpcrondump命令使用-t 或者--table-file，-T或者--exclusive-table-file，-s或者--sch 的增量备份实际上只对有如下操作的表进行备份； ALTER TABLE DELETE INSERT TRUNCATE UPDATE DROP and then re-create the table 2017 年象行中国（杭州站）第一期 gpcrondump⽤法(3/3) gpcrondump命令使用--list-backup-files可以将备份产生的所有文件都列举出来，分为两类，分别是：包括每个segment的数据文件（可以流式输出）、master产生的post_data文件包含indexes, triggers, primary key constraints等数据库对象，master产生的全局对象包含角色和表空间等 2. Regular files 包括各类辅助文件，例如存储着create database语句的文件，备份状态报告文件等其中最核心的每个segment的数据文件，命名格式如下：

0 码力 | 17 页 | 1.29 MB | 1 年前
3

共 29 条前往

页

分类

语言

格式