导出文件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum Database 管理员指南 6.2.1

........................................................................... - 34 - 编辑 pg_hba.conf 文件 ....................................................................................... - 35 - 限制并发连接数量 ...................... - 85 - 创建文件空间 ............................................................................................................ - 86 - 转移临时文件或事务文件的位置 .............................. ............................... - 90 - 查看现有的表空间和文件空间 ................................................................................ - 91 - 删除表空间和文件空间 ..............................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于 GFS 分布式文件系统，另外一篇是关于 MapReduce 并行计算框架的理论，分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 MPP（海量并行处理）计算框架，最终还是需要软件来实现，Greenplum 正是在这一背景下产生的，借助于分布式计算思想，Greenplum 实现了基于数据库的分布式数据存储和并行计算（GoogleMapReduce 实现的是基于文件的分布式数据存储和计算，我们会在后面比较这两种方法的优劣性）。话说当年 Greenplum（当时还是一个 Startup 公司，创始人家门口有一棵青梅 ——greenplum，因此而得名）召集了十几位业界大咖（据供了编译后的模块开箱即用，如：oraface、postgis、pgcrypt 等，对于其它模块，用户可以自行将 contrib 下的代码与 Greenplum 的 include 头文件编译后，将动态 so 库文件部署到所有节点就可进行测试使用了。有些模块还是非常好用的，例如：oraface，基本上集成了 Oracle 常用的函数到 Greenplum 中，曾经在一次 PoC 测试中，用户提供的

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

Confidential–Inter nal Use Only 大规模并行数据加载 • 高速数据导入和导出 – 主节点不是瓶颈 – 10+ TB/小时/Rack – 线性扩展 • 低延迟 – 加载后立刻可用 – 不需要中间存储 – 不需要额外数据处理 • 导入/导出到&从: – 文件系统 – 任意 ETL 产品 – Hadoop 发行版外部数据源 Interconnect ..

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

203 204 205 206 访问 Hive 访问 HBase 使⽤使⽤ pg_dump 迁移数据迁移数据安装 greenplum-db-clients 使⽤ pg_dump 导出数据使⽤ psql 重建数据利⽤利⽤ hdfs 外部表迁移数据外部表迁移数据 1. 在原 greenplum 集群中创建 hdfs pxf 可写外部表 2. 将原 greenplum 从 hdfs 外部表中读取数据并写⼊⽬的 greenplum 集群 FAQs 创建好数据仓库之后怎么连接到UDW？ UDW⽀持从mysql导⼊数据吗？ HDFS/Hive与UDW之间可以导⼊导出数据吗？ UDW中怎么kill掉正在执⾏的SQL语句？如何通过外⽹访问UDW？节点扩容时数量有没有什么限制？数据仓库价格数据仓库价格⽬录 Greenplum数据仓库 UDW Copyright 使⽤⽅法请参考我们的⽂档：外部表并⾏加载数据到udw 从从hdfs加载数据加载数据为了⽅便udw和hdfs之间的数据导⼊和导出，我们提供个两种⽅案： 1. ⽤sqoop实现hdfs和udw直接的数据导⼊导出，使⽤⽅法请参考：hdfs和hive中数据导⼊导出到udw 2. 创建hdfs外部表，使⽤⽅法请参考：创建hdfs外部表从从mysql中导⼊数据中导⼊数据为了⽅便mys

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum 排序算法

大小的顺串呢？归并排序的三个问题 23 替换选择算法 24 Knuth 5.4.1R替换选择算法： ● 1. 初始化阶段，读取输入元组至内存，并建立最小堆。 ● 2. 弹出堆顶元组，输出到顺串文件的缓冲区，并记录该元组的排序键为 lastkey。 ● 3. 读取新元组，如果元组排序键大于等于lastkey，插入堆顶，并调整堆，使其有序。 ● 4. 如果新元组排序键小于lastkey，将该元组放入堆尾，并将堆的大小减1。替换选择算法 25 ● 问题二：合并阶段假设存在N个输入缓冲区，如何高效的比较N个输入缓冲区的最小值，并输出到输出缓冲区？归并排序的三个问题 26 ● 假设顺串(长度为L)分布在K个文件中，顺串合并时需要K个输入缓冲区和1个输出缓冲区，每次选取K个缓冲区的最小值，输出到输出缓冲区。最后，输出缓冲区输出的顺串长度为L*K ● 算法复杂度 O(K* (L*K)) 顺串合并 1 两两相比较，父亲节点存储了两个节点比较的败者（节点较大的值）；胜利者（较小者）可以参与更高层的比赛。这样树的顶端就是当次比较的冠军（最小者）。 ● 3. 调整败者树，当我们把最小者输入到输出文件以后，需要从相应的顺串取出一个记录补上去。补回来的时候，我们就需要调整败者树，我们只需要沿着当前节点的父亲节点一直比较到顶端。比较的规则是与父亲节点比较，胜者可以参与更高层的比较，一直向上，直到根节点。失败者留在当前节点。

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Greenplum备份恢复浅析

[--rsyncable] 2017 年象行中国（杭州站）第一期 gpcrondump⽤法(2/3) gpcrondump命令使用-K 来指定唯一时间戳来标示某个备份集文件，其中如果当前备份目录中存在更未来的备份集，则备份报错。 gpcrondump命令使用-t 或者--table-file，-T或者--exclusive-table-file，-s或者--sch 以将备份产生的所有文件都列举出来，分为两类，分别是： 1. Pipes files 包括每个segment的数据文件（可以流式输出）、master产生的post_data文件包含indexes, triggers, primary key constraints等数据库对象，master产生的全局对象包含角色和表空间等 2. Regular files 包括各类辅助文件，例如存储着create database语句的文件，备份状态报告文件等其中最核心的每个segment的数据文件，命名格式如下： xxx_gp_dump_0_2_20170206160253.gz 其中XXX表示用户定义的文件前缀，0代表是非master节点，2代表该文件产生的 segment对应dbid，20170206160253是前面所说的时间戳。在恢复时，会根据这个命名规则，找到对应的文件。 2017 年象行中国（杭州

0 码力 | 17 页 | 1.29 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

> $i;done echo never > /sys/kernel/mm/transparent_hugepage/enabled 一般不建议直接修改/boot/grub/grub.conf文件或者/boot/grub/menu.lst 常用数据库参数参数名 Master节点值 Segment节点值 checkpoint_segments 32 32 max_connections 些参数  Vacuum Full/REORGANIZE：立即释放垃圾空间还给操作系统 Vacuum Full相当于碎片整理； Reorganize相当于重建表，数据表对应的文件名（pg_class -> relfilenode)将会发生改变。 Vacuum Full的处理性能非常低，一般情况下不建议采用，可以用Reorganize代替、或者使用AO表； –F效率低，数据库实例修复如果增量同步失败，我们一般会建议使用gprecoverseg –F进行全量同步，全量同步是在两个节点之间全量拷贝文件，超过10 0000个对象，在数据目录下地文件数会可能达到上百万个档，这些文件的拷贝需要花费很长时间 – 使用gpexpand扩容节点时，对象数多，对应到每个实例下的文件数非常多，将这些目的档重分布到新扩展的节点时间会很长 – 系统表（pg_class,pg_attribute）太大，影响系统工作效率

0 码力 | 41 页 | 1.42 MB | 1 年前
3
深度揭秘Greenplum开源数据库透明加密

总结我们所面临的问题什么是Greenplum数据库一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb GPDB GPDB的数据安全管理集群 • 数据备份恢复需要登录到系统进行运维 • 可以访问数据库二进制文件 • 可以访问数据库数据文件 • 可以访问预写日志文件潜在风险（二） GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复运维模式 • 原厂服务，主机厂或者第三方运维数据文件为明文二进制文件 • 直接通过Linux自带工具（strings, hexdump）访问 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall pgcypto的问题一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件

0 码力 | 48 页 | 10.19 MB | 1 年前
3
Greenplum分布式事务和两阶段提交协议

Ullman/Jennifer Widom《数据库系统实现》查询编译器/ 优化器事务管理器 DDL编译器执行引擎日志和恢复并发控制索引/文件/ 记录管理器缓冲区管理器缓冲区锁表存储管理器存储查询计划对索引、文件和记录的请求页命令事务命令查询、更新用户/ 应用 DDL命令数据库管理员数据、元数据、索引日志页读、写页元数据、事务提交时，数据页不需要刷回持久存储，为了保证持久性，先把Redo Log写入日志文件。Redo log记录修改数据对象的新值(After Image, AFIM) ■ Steal → Undo Log 允许Buffer Pool未提交事务所修改的脏页刷回到持久存储，为了保证原子性，先把Undo Log写入日志文件。Undo Log记录修改数据对象的旧值(Before Image, BFIM) 的一部分记录在日志文件（xlog）里。当数据库重新启动，会读这个日志文件（xlog）这条日志记录，把锁“还原”到pg_lock表里。 1. StartupXlog函数发现XLOG_XACT_PREPARE日志记录进行redo，调用函数recreateTwoPhaseFile将该日志记录中的信息放到pg_twophase目录下的文件里，每一个prepared事务对应一个文件 2. Start

0 码力 | 42 页 | 2.12 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

Ø instance实例 - user - tablesapce Ø database - schema - table,view,function - data row Ø 物理文件 - oid - 表空间 - 数据文件命名 12 greenplum体系架构 greenplum的体系结构 13 greenplum体系架构 greenplum的体系结构 14 greenplum体系架构兆网 Ø 数据来源为OLTP库，针对小数据量传输和计算，部分实时交互操作 Ø 以对账业务为主，统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务，不直接从数据库传数 Ø 以重点业务线、活动数据、非OLTP业务数据的任务计算为主 • 公司IDC_03机房Greenplum体系 Ø 数据来源来源为OTLP库库，针对大数据量传输和计算，采用T+1方式 Greenplum运维体系环境创建与部署 • 部署流程 Ø 规划部署方案 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系环境创建与部署 • 部署注意点 Ø 资源要充足（ETL，管理节点，数据节点，数据集市）

0 码力 | 43 页 | 9.66 MB | 1 年前
3

共 20 条前往

页

分类

语言

格式

Greenplum Database 管理员指南 6.2.1

Greenplum 精粹文集

Greenplum数据库架构分析及5.x新功能分享

Greenplum数据仓库UDW - UCloud中立云计算服务商

Greenplum 排序算法

Greenplum备份恢复浅析

Pivotal Greenplum 最佳实践分享

深度揭秘Greenplum开源数据库透明加密

Greenplum分布式事务和两阶段提交协议

并行不悖- OLAP 在互联网公司的实践与思考