新特性 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 6新特性: 在线扩容工具GPexpand剖析

Greenplum 6新特性: 在线扩容工具GPexpand剖析杜佳伦 (jdu@pivotal.io) 大纲 • Greenplum 集群部署 • GPExpand简介与具体用法 • Greenplum 6中GPExpand的改进与实现 Greenplum 集群部署 Greenplum 集群部署 • gp_segment_configuration 字段名描述 dbid GPExpand是Greenplum的扩容工具，可以为集群增加新的节点来支持更大容量的存储和更高的计算能力。 • 随着Greenplum一起安装发布，在$GPHOME/bin下面，和其他辅助工具，如gpstart,gpstop,gpactivatestandby一样，是一个用python写的命令行脚本。 GPExpand简介与具体用法 • GPExpand工作流程 – 建立并添加新节点 – 数据重分布 GPExpand简介与具体用法 GPExpand简介与具体用法 • 增加新节点 – gpexpand –i 配置文件 • 数据重分布 – gpexpand • 清理 – gpexpand -c GPExpand简介与具体用法 • 增加新节点 – gpexpand –i 配置文件（gpexpand生成或手动编辑） sdw:sdw:25438:/data/expand1/primary:9:3:p sdw:sdw:254

0 码力 | 37 页 | 1.12 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

已经历经了无数个版本更新和迭代，编者也有了更多的感悟，放眼 GP 的中文资料，为之动容，就想着再为 GP 的发展壮大多做那么一点点贡献，挤出一点时间，重新梳理和打磨这个文档，并完全根据最新的版本特性进行重新整理，希望能对中文爱好者提供一些帮助，在编写过程中，仍会参考官方文档，但绝不是简单的翻译，甚至有些内容会与官方文档不一致。编者提醒，升级版本极其重要，4 版本早该淘汰了，5 版本和 ....................................................................................... - 168 - 插入新记录.................................................................................................. 分区的统计信息 .................................................................................. - 186 - Orca 特性与增强 ...............................................................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

是同一时期（Hadoop 约是 2004 年前后出现的，早期的 Nutch 可追溯到 2002 年）。互联网行业经过之前近 10 年的由慢到快的发展，累积了大量信息和数据，数据在爆发式增长，这些海量数据急需新的计算方式，需要一场计算方式的革命。传统的主机计算模式在海量数据面前，除了造价昂贵外，在技术上也难于满足数据计算性能指标，传统主机的 Scale-up 模式遇到了瓶颈， SMP（对称多处理）架构难于扩展，并且在并行计算框架的理论，分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 下午3:38 2 由此，业界认识到对于海量数据需要一种新的计算模式来支持，这种模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。当时，开放的X86服务器技术已经能很好的支持商用，借助高速网络（当时是千兆以太网）组建的 X86 集群在整体上提供的计算能力已大幅高是为扩展而生的，你可以在 PG 中用 Python、C、Perl、TCL、 PLSQL 等等语言来扩展功能，在后续章节中，我将展现这种扩展是如何的方便，另外，开发新的功能模块、新的数据类型、新的索引类型等等非常方便，只要按照 API 接口开发，无需对 PG 重新编译。 PG 中 contrib 目录下的各个第三方模块，在 GP 中的 postgis 空间数据库、R、Madlib、pgcrypto

0 码力 | 64 页 | 2.73 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

移植的分析数据库软件解决方案，可部署在不同操作系统、不同芯片的环境，适合本地部署、多云环境（公有云和私有云）中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性，具备良好性能、可靠性和稳定性，使得 Greenplum 不仅可以作为全能的分析化平台，也能满足交易型业务场景，能够处理多种并发混合工作负载，专为满足在多结构数据环境中进行实时分析的需求而设计。版本。该版本为企业级用户提供一个安全稳定可靠的操作系统。 openEuler 也是一个技术孵化器。通过每半年发布一次的创新版，快速集成 openEuler 以及其他社区的最新技术成果，将社区验证成熟的特性逐步回合到发行版中。这些新特性以单个开源项目的方式存在于社区，方便开发者获得源代码，也方便其他开源社区使用。社区中的最新技术成果持续合入发行版，发行版通过用户反馈反哺技术，激发社区创新活力，从而不断孵化新技术。 Shared Nothing 的 MPP 高性能系统架构，Greenplum 可以将 PB 级的数据仓库负载分解，并使用所有的系统资源并行处理单个查询。同时 Greenplum 具备数据库 ACID 特性，运行符合 ANSI 标准的 SQL，可以让服务器群集能够以单一数据超级计算机的方式运行，且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分析扩展功能支持 ANSI SQL，并通过

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

........................................................................................... 8 其他功能特性 .................................................................................................. 另一个有所改进的部分是公共表表达式 (CTE)，这是指仅用于一个查询的临时表，通常在分析工作负载中十分常用。例如，在 TPC-DS 中，111 个查询中有 46 个使用了 CTE。GPORCA 为 WITH 子句引入了一种新的生成者 - 使用者模式。利用该模式，只需计算一个复杂表达式一次，便可由多个操作符使用其计算输出。这就使得 Pivotal Greenplum 能够处理复杂得多的 CTE，因为它不必将其完全展开，只需对其进行动态处理即可。GPORCA 倍。6 要整理大型表中的数据，一种常见方法就是使用分区。Greenplum 5 采用 GPORCA 作为默认查询优化器，可确定消除与结果无关的分区的经济方式，从而改进动态分区消除。这是通过引入以下三个新的查询操作符实现的，这三个操作符在生成者 / 使用者模式下配合使用以便对分区表执行扫描：PartitionSelector、DynamicScan 和 Sequence。通过在查询计划中放置这些

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

PARTITION FOR ('2016-01-01') TO part1; 6.5 增加分区增加分区/增加默认分区增加默认分区增加分区：您可以通过 ALTER TABLE 命令向已有的分区表中添加新的分区，例如： ALTER TABLE p_store_sales ADD PARTITION 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 如果输⼊的数据不满⾜分区的 CHECK 约束条件，并且没有创建默认分区，数据将被拒绝插⼊。默认分区能够保证在输⼊数据不满⾜分区时，能够将数据插⼊到默认分区。如果分区表中包含默认分区，您必须通过分裂默认分区的⽅式来增加新的分区。在使⽤ INTO ⼦句时，需要将默认分区做为第⼆个分区名称。例如： ALTER TABLE p_store_sales SPLIT DEFAULT PARTITION START ('2016-01-01') AT ('2016-01-16') INTO (PARTITION part_001, PARTITION part_002); 如果您的分区表中包含默认分区，您必须通过分裂默认分区的⽅式来增加新的分区。在使⽤ INTO ⼦句时，需要将默认分区做为第⼆个分区名称。例如： ALTER TABLE p_store_sales SPLIT DEFAULT PARTITION START ('2016-01-01')

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

个节点的集群上，每个节点仅保存总数据量的 1/100，100 个节点同时并行处理，性能会是单个配置更强节点的几十倍。 Greenplum 不仅仅实现了基本的分布式数据存储，还提供了更高级更灵活的特性，譬如多种分布策略、多级分区以及多态存储。分布式数据存储 Confidential │ ©2021 VMware, Inc. 9 Greenplum 6 提供了以下 3 种数据分布策略: Segment 上。在 Greenplum 6 中，默认采用一致性哈希(Jump Consistent Hash)分布策略。哈希分布当增加一个新的节点时，需要对原有数据进行重新映射。一致性哈希则保证了在重新映射的过程追中，tuple 要么保留在原有节点中，要么迁移至新的节点中，从而实现最小数据迁移。 Confidential │ ©2021 VMware, Inc. 11 随机分布则采用随机的方式 Confidential │ ©2021 VMware, Inc. 13 Greenplum 支持多态存储，即单张用户表，可以根据访问模式的不同而使用不同的存储方式存储不同的分区。例如根据数据的新、旧程度决定将数据存储至本地硬盘还是以外部表的方式存储在 HDFS 或者是 S3 中。Greenplum 提供以下存储方式: l 堆表 (Heap Table)：默认存储方式，同时也是 PostgreSQL

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Brin Index主Greenplum 7中的理论与实现

Selection: 1-((B-1)/B)^(N*a) = 1- 0.000045 Confidential │ ©2021 VMware, Inc. Brin的使用场景表非常大数据有一定的分布特性我们不想再index上付出太多存储空间 Confidential │ ©2021 VMware, Inc. Brin Scan select * from t where a > 1 0 0 bit map Confidential │ ©2021 VMware, Inc. Insert Update Delele 每个元组代表一组Block每个字段的最大最小值如果新的数据超出了最大最小值的范围，则更新元组删除数据时不做任何操作 Confidential │ ©2021 VMware, Inc. Brin Vacuum vacuum不做任何操作 vacuum AppendOnly Table是一种紧凑的数据格式，适用于较少进行 Update/Delete的场景 Tuple以紧凑的方式存储在变长的Block中，所以Block在写入磁盘后不能修改，只能向后追加新的Block 为了实现并发Insert，每个AO表逻辑上有128个AoSeg，每个事务向一个特定的AoSeg追加数据 16 Confidential │ ©2021 VMware, Inc

0 码力 | 32 页 | 1.04 MB | 1 年前
3
Greenplum 介绍

平台，无论裸机、私有云、公有云均可部署。硬件环境的普适性，提供了极大的灵活性，解放了硬件平台的制约和绑定，从而允许客户灵活选择最适合的方案，降低未来的迁移代价，而开发、运维人员无需要学习新的数据库处理技术，人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台：支持各种数据源，包括 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等，不需要移动数据，避免了数据加载的复杂大大提高了产品的质量和客户的满意度。Greenplum 5.0 是开源之后发布的第一个稳定版本，大约保持 1 个半月一个版本的发布速度。Greenplum 主干分支（master）开发非常活跃，众多社区期待的特性稳健推进中，包括内核升级、新课题，处于业界领先地位。 Greenplum 社区邀请 Pivotal、阿里云、百度等社区人士共同定期举办各种技术研讨会、技术沙龙、 101 培训等活动，获得良好反馈。国内多所知名大学开设了

0 码力 | 3 页 | 220.42 KB | 1 年前
3
Greenplum机器学习⼯具集和案例

• 更好的可扩展性 • 算法随着数据扩充而线性扩展 • 更高的预测精准度 • 适用更多数据，而不是抽样 • 顶级 ASF 开源项目 • 社区驱动开发模式 MADlib 特性 2017.thegiac.com 客户端数据库服务器器 Master Segment 1 Segment 2 Segment n … SQL 存储过程结果集在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动化 X 代码复杂冗余，很多数据类型转换 ✓ 代码更更精简，更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客户商业影响 2017.thegiac.com 用户案例例2 基于API日志的⾦金金融产品⽤用户分析 2017.thegiac.com 问题某⼤大型跨国⾦金金融服务公司 ● 移动应⽤用 API 分析 ● 使⽤用Madlib进⾏行行聚类分析，建⽴立会话识别模型和主题模型 ● 建⽴立scoring pipeline, 对新访问的安全性进⾏行行评估 ● 使⽤用可视化⼯工具对结果进⾏行行更更好地呈现背景 2017.thegiac.com 数据源 • 数据 - API

0 码力 | 58 页 | 1.97 MB | 1 年前
3

共 21 条前往

页

分类

语言

格式