推理大模型 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 精粹文集

实现的是基于文件的分布式数据存储和计算，我们会在后面比较这两种方法的优劣性）。话说当年 Greenplum（当时还是一个 Startup 公司，创始人家门口有一棵青梅 ——greenplum，因此而得名）召集了十几位业界大咖（据说来自 google、yahoo、ibm 和 TD），说干就干，花了一年多的时间完成最初的版本设计和开发，用软件实现了在开放 X86 平台上的分布式并行计算，不依赖于任何专有硬件，达到的性能却远远超过传统高 mysql等等），但是 Postgresql 是单实例数据库，怎么能在多个 X86 服务器上运行多个实例且实现并行计算呢？为了这，Interconnnect 大神器出现了。在那一年多的时间里，大咖们很大一部分精力都在不断的设计、优化、开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多个 Postgresql 实例的高效协同和并行计算，Interconnect 承载了并行析功能都不支持，而 Greenplum 作为 MPP 数据分析平台，这些功能都是必不可少的。 2) Mysql 查询优化器对于子查询、复制查询如多表关联、外关联的支持等较弱，特别是在关联时对于三大 join 技术：hash join、merge join、nestloop join 的支持方面，Mysql 只支持最后一种 nestloop join（据说未来会支持 hash join），而多个大表关联分析时

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

....................................................................................... - 116 - 分区大表................................................................................................... ......................................................................................... - 367 - 大版本升级................................................................................................ ....................................................................................... - 373 - 数据模型 ..................................................................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

(id); 2017.thegiac.com 2017.thegiac.com • 适合模型应用于数据子集的场景，并行执行效率非常高 • 如果节点间数据通讯，使用适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 ● 机器器学习 ● 图形分析 ● 统计分析 MPP系统上的可扩展应⽤用 2017.thegiac.com ⽤用户案例例 1 Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测模型不不够精准，需要更更好的邮件营销策略略 ● 现有数据分析流程繁琐，速度慢，有很多⼿手动步骤，易易出错客户数据科学解决⽅方案 ● 某⼤大型跨国多元化传媒和娱乐公逻辑回归计算 KS 分值模型验证⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理特征⽣生成验证预测信息价值⽅方差膨胀因⼦子成对相关性逻辑回归 Elastic Net 特征选择模型 1 2 3 4 5

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

 kernel.shmmax = 1000000000  kernel.sem = 250 512000 100 2048  Redhat 6.2以后，内核增加了hugepage大页内存管理，关闭hugepage可以提高混合负载管理性能设置办法：修改local脚本 For SUSE /etc/init.d/boot.local For RHLE /etc/rc 点时间会很长 – 系统表（pg_class,pg_attribute）太大，影响系统工作效率 – 系统元数据检查pg_checkcat等工具运行时间比较长物理模型经验分享物理模型对于系统性能有很大影响，因此需要我们特别关注。以下来自于在某大型银行的使用经验：行存储和列存储： • 避免过多使用列存储的原因是防止小档数过多。 • 列存储能够提升查询性分布键使用： • 尽量采用一个常用关联字段作为分布键，例如账号、客户号，这个可以提高关联条件的命中率，减少关联时数据重分布（主要对大表） • 选用分布键同时考虑数据平均分布（一个例子，日志号不是最好的分布键，大量的空值导致资料倾斜）物理模型经验分享（续）分区表使用： • 不建议使用二级分区，二级分区不便于管理，而且Parser效率较低； • 二级分区可以用一级

0 码力 | 41 页 | 1.42 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

业务数据与数据特点 • 现在的数据 —— OLTP Ø实时，在线系统，客户使用 Ø事务小，频率高，并发高 • 过去的数据 —— OLAP Ø非实时（T+1，或小时级），离线系统，分析决策 Ø事务大，频率相对小，并发低 • 未来的数据 —— 趋势分析 Ø非实时，离线+在线流系统，趋势分析 Ø算法分析，持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态（注册数，活跃数，并发量，峰值） Greenplum集群现状概述 • 三大Greenplum集群体系 Ø 公司IDC_01机房Greenplum体系 Ø 公司IDC_02机房Greenplum体系 Ø 公司IDC_03机房Greenplum体系 • 服务器资源 Ø 三大Greenplum集群，共用 422 个postgresql实例 Ø 实例分布成为 28 个Greenplum集群或postgresql单实例 • 服务器资源 Ø 三大Greenplum集群，共使用三大Greenplum集群，共使用 51 台服务器资源 Ø 12台虚拟机，39台物理机 17 Greenplum现状说明三大Greenplum集群定位分类 • 公司IDC_01机房Greenplum体系 Ø 公司第一套Greenplum集群，网络环境为千兆网 Ø 数据来源为OLTP库，针对小数据量传输和计算，部分实时交互操作 Ø 以对账业务为主，统计计算为辅 • 公司IDC_02机房Greenplum体系

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

Confidential │ ©2021 VMware, Inc. 12 除了支持数据在不同的 segment 节点上水平分布以外，还支持在单个节点按照不同的标准进行分区，将单个节点上一个逻辑上的大表分割成物理上的几块，且支持多级分区。 Greenplum 目前支持的分区方法有： l 范围分区：根据某个列的时间范围或者数值范围对数据进行分区。譬如以下 SQL 将创建一个按天分区的分区表，将 Confidential │ ©2021 VMware, Inc. Greenplum 分布式执行器 QD/QE/火山模型/Gang Confidential │ ©2021 VMware, Inc. 25 Greenplum，或者说 PostgreSQL 是进程模型，而不是类似于 MySQL 的线程模型。主进程 postmaster 是整个数据库实例的总控进程，负责启动和关闭数据库实例。当客户端和 Coordinator 发来的计划树，对每一个节点按照拉模型 (火山模型) 进行执行。 QD && QE Confidential │ ©2021 VMware, Inc. 26 QD && QE Confidential │ ©2021 VMware, Inc. 27 火山模型，或者说拉模型，是指从最顶层的输出节点开始，不断从下层节点拉取数据，一种自顶向下的执行方式。最常见的拉模型是 Tuple-At-A-Ti

0 码力 | 31 页 | 3.95 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

客户需求在任何位置运行。借助这种“不受限于基础架构”的方法，可以在本地不同的操作系统、不同的芯片环境或多云环境（私有云或公有云）中部署同一类型的分析数据库。这种不受限于基础架构的方法的大部分优势都具有同样强大的作用，那就是可以消除对第三方平台、供应商制约，助用户实现选择自由。 Greenplum 保持着真正开源、完全开放的初心，获得广泛的技术认可，随着 Greenplum 社区的不断壮大和发展，新删除操作，大大提升了处理性能。并发控制优化 Greenplum 6 除了全局死锁检测，还引入了多项其他并发控制优化方法，这些优化对 SELECT 和 INSERT 提升比较大。一个优化有关 procarray 锁，另一个优化和事务有关，大多数 OLTP 查询带有主键或者分布键，这种查询不需要两阶段提交（2PC）。集群在线扩容 Greenplum 6 实现了不停库在线增加新节点集成分析：改进后的全新分析接口一直以来，客户都能在 Greenplum 中做高级分析，无论是提供将应用逻辑向下推送至数据所在位置的方法，执行分析功能，还是以大规模并行方式构建数据模型，都可以实现。Greenplum 支持适用于数据挖掘和数据科学工作的最全面、最先进的分析程序包和扩展。Greenplum 还针对最受欢迎的 Python 和 R 语言算法库提供简单易用的安装程

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

需要采用一种新的方法 •“一切皆可商用”：商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘过去Google™ 曾经用来实现信息搜索功能的技术，现在被Greenplum用于数据仓库现在的解决方案 12 Greenplum愿景：企业数据集合 13 • 在企业内创建统一的数据运算平台将所有处理操作尽量移动到数据附近计算内核 Greenplu m并行数据流引擎对本地磁盘进行直接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术（由Google普及）的产品 • 采用新的编程模型，在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 MapReduce Greenplum MapReduce的优势 • 处理在任何地点存储的任何类型的数据 SQL2B 报表二：查询09年5月份数 32秒 N 同上复杂查询本项测试的目的是通过SQL查询检验Greenplum数据库引擎处理Query计算的响应速度。测试方法：针对数据加载测试中的三张大表，模拟生产业务需求进行复杂SQL语句查询(参看附录)。测试结果如下面两表：语句名 Oracle查询时长 Greenplu m查询时长 GP提升倍数备注 SQL1 1800秒+ 33

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum 架构概览

和 Master- Slave 有何区别? 在 Master-Slave 模型下，Master 和 Slave 拥有相同的数据，并且 Master 是存储和处理数据的唯⼀⼊⼝，Slave 仅复制 Master 的数据。⽐如 MySQL 的主从模型、Redis 的主从模型在 Master-Segment 模型下，⾸先 Master 节点不存储数据，其次就是数据将会以分⽚的⽅式存储在多个 Segment 节点中。这⾥可以类⽐ Redis Cluster，只不过 Redis Cluster 是去中⼼化的。在 Master-Segment 模型中通常也会包含 Master-Slave 模型，也就是增加数据副本，以实现⾼可⽤简单地来说，Master-Slave 主要进⾏数据复制（冗余），⽽ Master-Segment 则会同时进⾏数据分区（⽔平扩展）和复制（冗余）分区与分⽚基于⾏的存储⽅式，也可以选择基于列的存储⽅式，并且⽀持诸如 S3、HDFS 等外部存储 GP 基本查询流程 PostgreSQL 进程模型 PostgreSQL（以下简称 PG）采⽤的是经典的 C/S 模型，即 Client-Server 模型，同时使⽤多进程的⽅式⽀持并发查询与写⼊。也就是说，每当有⼀个客户端连接⾄ PG 时，就会有⼀个⼦进程被创建出来。postmaster 进程和

0 码力 | 1 页 | 734.79 KB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

Confidential–Internal Use Only 卓越的OLAP特性列式存储分区、压缩高级特性递归查询、窗口函数集成分析多格式、多语言 Madlib: 机器学习数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器成熟稳定完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储表‘SALES’ 优化分布式大数据系统中特别复杂的查询 18 Madlib: 迭代并行模型训练 Master model = init(…) WHILE model not converged model = SELECT model.aggregation(…) FROM data table ENDWHILE 模型存储过程 … 广播 Segment 2 Segment Segment n … Transition 函数操作一小批数据并更新模型状态 1 Merge 函数 2 Final函数 3 Segment 1 19 Madlib: PageRank性能 Greenplum集群: ● 1 master ● 4*6 segment 50亿条链接 (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log

0 码力 | 52 页 | 4.48 MB | 1 年前
3

共 17 条前往

页

分类

语言

格式