文件存储 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum Database 管理员指南 6.2.1

..................................................................................... - 21 - 数据是如何存储的 ................................................................................................. ........................................................................... - 34 - 编辑 pg_hba.conf 文件 ....................................................................................... - 35 - 限制并发连接数量 ...................... - 85 - 创建文件空间 ............................................................................................................ - 86 - 转移临时文件或事务文件的位置 ..............................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

Scale-up 模式遇到了瓶颈， SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于 GFS 分布式文件系统，另外一篇是关于 MapReduce 并行计算框架的理论，分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big MPP（海量并行处理）计算框架，最终还是需要软件来实现，Greenplum 正是在这一背景下产生的，借助于分布式计算思想，Greenplum 实现了基于数据库的分布式数据存储和并行计算（GoogleMapReduce 实现的是基于文件的分布式数据存储和计算，我们会在后面比较这两种方法的优劣性）。话说当年 Greenplum（当时还是一个 Startup 公司，创始人家门口有一棵青梅 ——green PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法支持，除对 ANSI SQL 完全支持外，还支持比如分析函数（SQL2003 OLAP window 函数），还可以用多种语言来写存储过程，对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远，很多分析功能都不支持，而 Greenplum 作为 MPP 数据分析平台，这些功能都是必不可少的。 2) Mysql

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum分布式事务和两阶段提交协议

Phase Locking, 2PL）、乐观并发控制（OCC） Durability 持久性一个事务在提交之后，该事务对数据库的改变是持久的。 Write Ahead Logging + 存储管理 Jim Gray于1981年VLDB描述了事务的原子性、一致性和持久性，在此基础上，Haerder和Reuter在1983年中提出了事务的隔离性并提出术语 “ACID”，自此，事务的ACID四个性质成为业内标准术语日志和恢复并发控制索引/文件/ 记录管理器缓冲区管理器缓冲区锁表存储管理器存储查询计划对索引、文件和记录的请求页命令事务命令查询、更新用户/ 应用 DDL命令数据库管理员数据、元数据、索引日志页读、写页元数据、统计数据元数据 9 存储介质的类型 ■ Volatile storage 易失性存储器 DRAM, Cache Non-volatile storage 非易失性存储器 Disk, SSD, NVM ■ Stable stage 稳定存储器 theoretically never cannot be guaranteed 图片来源: Power consumption estimation using in-memory database computation 10 不同存储介质的访问时间图片来源：Systems

0 码力 | 42 页 | 2.12 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

> $i;done echo never > /sys/kernel/mm/transparent_hugepage/enabled 一般不建议直接修改/boot/grub/grub.conf文件或者/boot/grub/menu.lst 常用数据库参数参数名 Master节点值 Segment节点值 checkpoint_segments 32 32 max_connections Update/delete操作后，数据库不会自动释放这些空间，这些垃圾空间的回收方式： 1）Vacuum 2）Vacuum full 3）REORGANIZE • 不进行垃圾空间回收的影响 o 垃圾空间浪费存储空间 o 垃圾空间影响查询性能注：delete all用truncate代替，truncate无需回收垃圾空间垃圾空间回收  Vacuum：标记垃圾空间为可再利用些参数  Vacuum Full/REORGANIZE：立即释放垃圾空间还给操作系统 Vacuum Full相当于碎片整理； Reorganize相当于重建表，数据表对应的文件名（pg_class -> relfilenode)将会发生改变。 Vacuum Full的处理性能非常低，一般情况下不建议采用，可以用Reorganize代替、或者使用AO表；

0 码力 | 41 页 | 1.42 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

Ø不同数据量，不同事务特点，不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP，趋势分析数据库归档，只能load，不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系四 Greenplum扩展规划 pg结构组成 Ø 连接关系系统 Ø 编译执行系统 Ø 存储执行系统 Ø 事务系统 Ø 系统表 • pg逻辑和物理结构 Ø instance实例 - user - tablesapce Ø database - schema - table,view,function - data row Ø 物理文件 - oid - 表空间 - 数据文件命名 12 greenplum体系架构 greenplum的体系结构

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 排序算法

大小的顺串呢？归并排序的三个问题 23 替换选择算法 24 Knuth 5.4.1R替换选择算法： ● 1. 初始化阶段，读取输入元组至内存，并建立最小堆。 ● 2. 弹出堆顶元组，输出到顺串文件的缓冲区，并记录该元组的排序键为 lastkey。 ● 3. 读取新元组，如果元组排序键大于等于lastkey，插入堆顶，并调整堆，使其有序。 ● 4. 如果新元组排序键小于lastkey，将该元组放入堆尾，并将堆的大小减1。替换选择算法 25 ● 问题二：合并阶段假设存在N个输入缓冲区，如何高效的比较N个输入缓冲区的最小值，并输出到输出缓冲区？归并排序的三个问题 26 ● 假设顺串(长度为L)分布在K个文件中，顺串合并时需要K个输入缓冲区和1个输出缓冲区，每次选取K个缓冲区的最小值，输出到输出缓冲区。最后，输出缓冲区输出的顺串长度为L*K ● 算法复杂度 O(K* (L*K)) 顺串合并 1 ● 1. 输入每个顺串的第一个记录作为败者树的叶子节点。建立初始化败者树。 ● 2. 两两相比较，父亲节点存储了两个节点比较的败者（节点较大的值）；胜利者（较小者）可以参与更高层的比赛。这样树的顶端就是当次比较的冠军（最小者）。 ● 3. 调整败者树，当我们把最小者输入到输出文件以后，需要从相应的顺串取出一个记录补上去。补回来的时候，我们就需要调整败者树，我们只需要沿着当前节点的父亲

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

信息传播合规性报告资产组合分析客户报表电汇通知分部记分卡客户关系管理、收购和盈利率欺诈检测欺诈分析客户流失分析响应时间流量分析产品关联/捆绑零售存储运营分析客户忠诚度计划协作规划和预估预防亏损优化供应链当今的数据仓库方案基于硬件专有，昂贵不可扩展针对OLTP进行了优化主流 10 数据库行业所面临的挑战网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率数据库管理系统（DBMS）的规模/容量 11 需要采用一种新的方法 •“一切皆可商用”：商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘过去Google™ 曾经用来实现信息搜索功能的技术，现在被Greenplum用于数据仓库 Greenplum愿景：企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险源文件源数据源数据源文件数据仓库和分析应用程序 Greenplum数据架构商用硬件集群分析数据市场企业数据仓库企业数据集合：主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum on Kubernetes 容器化MPP数据库

云数据库增速巨大 ● DBasS的需求 ● 跨云的需求云数据库实现方案云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云云数据库实现方案 ● 全新数据库 ○ Snowflake ● 原有数据库架构升级 ○ Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Apache Spark ○ CockroachDB ○ Apache HAWQ 云数据库存储方案 ● 块存储 ○ 文件系统接口 ● 对象存储 ○ 成本低 ○ 扩展性强 ○ 访问延迟高 Greenplum on Kubernetes Network Interconnect Standby Host Master Primary Segment部署策略 ○ Mirror Segment部署策略 ● 容器化Greenplum运维管理 ○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联

0 码力 | 33 页 | 1.93 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

操作系统支持多设备，应用一次开发覆盖全场景。 openEuler 平台架构 openEuler 是覆盖全场景的创新平台，在引领内核创新，夯实云化基座的基础上，面向计算架构互联总线、存储介质发展新趋势，创新分布式、实时加速引擎和基础服务，结合边缘、嵌入式领域竞争力探索，打造全场景协同的面向数字基础设施的开源操作系统。完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 动抑制，创新业务优先级 00M 内存回收算法保障在线业务安全可靠运行。 • 新文件系统 EulerFS：面向非易失性内存的新文件系统，采用软更新、目录双视图等技术减少文件元数据同步时间，提升文件读写性能。 • 内存分级扩展 etMem：新增用户态 swap 功能，策略配置淘汰的冷内存交换到用户态存储，用户无感知，性能优于内核态 swap。 2. 夯实云化基座容器操作系统 Docker 容器交互，以在容器中执行用户定义函数（UDF），这样方便数据科学家可以在不需要 DBA 帮助的情况自由使用数据分析，同时大大提高了安全性，Docker 容器确保用户代码无法访问源主机的文件系统。此外，容器启动时网络访问受限，无法连接回 Greenplum 数据库或打开任何其他外部连接。集成分析：改进后的全新分析接口一直以来，客户都能在 Greenplum 中做高

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

2013 Pivotal. All rights reserved. Greenplum 简介 4 Pivotal Confidential–Inter nal Use Only GPDB：为大数据存储、计算、挖掘而设计标准 SQL 数据库：ANSI SQL 2008 标准，OLAP，JDBC/ODBC 支持ACID、分布式事务分布式数据库：线性扩展，支持上百物理节点企业级数据库：全球大客户超过无共享大规模并行处理先进的查询优化器多态存储系统客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构并行数据流引擎高速软数据交换机制 MPP Scatter/Gather 流处理在线系统扩展任务管理服务加载 & 数据联邦高速数据加载近实时数据加载任意系统数据访问存储 & 数据访问混合存储引擎（行存&列存）多种压缩，多级分区表 Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D 10 Pivotal Confidential–Inter nal Use Only 多级分区存储 • 哈希Distribution：数据均匀的分布到各个数据节点 • 范围分区：数据节点内部，根据多种规则分区，降低扫描量数据集 Segment 1A Segment 1C Segment

0 码力 | 44 页 | 8.35 MB | 1 年前
3

共 27 条前往

页

分类

语言

格式

Greenplum Database 管理员指南 6.2.1

Greenplum 精粹文集

Greenplum分布式事务和两阶段提交协议

Pivotal Greenplum 最佳实践分享

并行不悖- OLAP 在互联网公司的实践与思考

Greenplum 排序算法

Greenplum 新一代数据管理和数据分析解决方案

Greenplum on Kubernetes 容器化MPP数据库

完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

Greenplum数据库架构分析及5.x新功能分享