交互环境 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 精粹文集

在数据加载和数据计算中表现出强悍的性能，某行业客户对此深有体会 : 同样 2TB 左右的数据，在 Greenplum 中不到一个小时就加载完成了，而在用户传统数据仓库平台上耗时半天以上。在该用户的生产环境中，1 个数百亿表和 2 个 10 多亿条记录表的全表关联中（只有 on 关联条件，不带 where 过滤条件，其中一个 10 亿条的表计算中需要重分布），Greenplum 仅耗时数分钟就完成了， CPU core 的计算能力，还不如关掉超线程以提高单 core 的能力），但即使是这样，在那个测试中，测试性能也大幅低于 Greenplum（那个测试中，各厂商基于客户提供的完全相同的硬件环境，Greenplum 是唯一一家完成所有测试的，特别在混合负载测试中，Greenplum 的 80 并发耗时 3 个多小时就成功完成了，其它厂商大都没有完成此项测试，唯一完成的一家耗时 40 多小时）。 MAP->Shuffle->Reduce 过程中通过文件来交换数据，效率很低，MapReduce 要求每个步骤间的数据都要序列化到磁盘，这意味着 MapReduce 作业的 I/O 成本很高，导致交互分析和迭代算法开销很大，MPP 数据库采用 Pipline 方式在内存数据流中处理数据，效率比文件方式高很多。总结以上几点，MPP 数据库在计算并行度、计算算法上比 Hadoop 更加 SM

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

........................................................................... - 288 - 为 gpadmin 用户配置环境变量 ................................................................................... - 290 - 第十三章：启动与停止是单 Master，可以最大限度的规避多 Master 架构的系统表频繁不一致的缺陷。 GP 是基于 PostgreSQL 发展而来，用户端可以如同访问 PostgreSQL 那样与 GP 进行交互。可以通过 PostgreSQL 客户端程序(如 psql、pgAdminIII)和应用程序接口(APIs(如 JDBC、ODBC))连接 GP。不过，GP 在 5 版本和 6 版本中，因为 PostgreSQL $ PGOPTIONS='-c gp_session_role=utility' psql 在 GP 推荐的硬件配置环境下，每个 Instance 需要对应数个 CPU Core 的资源资源，具体的比例需要根据数据库的适用场景进行综合评估。例如在生产环境，每个 Instance 所在的主机配置了 2 个 16 Core 的 CPU，可根据不同的场景，配置 4 ~ 12 个不等的 P

0 码力 | 416 页 | 6.08 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP，趋势分析 • 8 OLAP数据流转 —— dbsync平台 7 数据仓库体系架构数据架构示意图 8 数据仓库体系架构架构的具体技术实现 • 轻量级数据仓库 —— Inforbright Greenplum现状说明三大Greenplum集群定位分类 • 公司IDC_01机房Greenplum体系 Ø 公司第一套Greenplum集群，网络环境为千兆网 Ø 数据来源为OLTP库，针对小数据量传输和计算，部分实时交互操作 Ø 以对账业务为主，统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务，不直接从数据库传数 Ø Greenplum扩展规划六 22 Greenplum运维体系环境创建与部署 • 部署流程 Ø 规划部署方案 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系环境创建与部署 • 部署注意点 Ø 资源要充足（ETL，管理节点，数据节点，数据集市）

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 17/206 yum install postgresql-jdbc.noarch –y Windows 环境下 JDBC 驱动，将 jar 添加到⼯程的 BUILD PATH。⽰例程序1，java连接UDW，执⾏建表，插⼊操作 PostgreSQLJDBC1.java import java.sql -d database -p port –W 1.3 JDBC⽅式访问⽅式访问 Linux操作系统 yum install postgresql-jdbc.noarch –y Windows环境下JDBC驱动，将jar添加到⼯程的BUILD PATH。⽰例程序1，java连接UDW，执⾏建表，插⼊操作 PostgreSQLJDBC1.java import java.sql.Connection; primary key 或者第⼀个 column 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 129/206 做哈希分布。在MPP环境下，查询的执⾏时间是由所有节点决定的。当数据出现倾斜时，会导致较低的性能以及内存溢出的情况。当选择分布键时，考虑以下⼏个⽅⾯： 1. 为所有的表显⽰地指定哈希或随机分布，不要使⽤默认的。 2

0 码力 | 206 页 | 5.35 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

................................................................................... 8 以开源创新替代专有分析环境 .................................................................................................. 解决方案，可部署在不同操作系统、不同芯片的环境，适合本地部署、多云环境（公有云和私有云）中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性，具备良好性能、可靠性和稳定性，使得 Greenplum 不仅可以作为全能的分析化平台，也能满足交易型业务场景，能够处理多种并发混合工作负载，专为满足在多结构数据环境中进行实时分析的需求而设计。欧拉开源繁荣社区生态友好卓面环境：UKUDDEXfce 卓面环境，丰富社区卓面环境生态。 • 欧拉 DevKit：支持操作系统迁移、兼容性评估、简化安全配置 secPaver 等更多开发工具。 Greenplum：新一代 HTAP 数据平台 Greenplum 自 2006 年发布第一个版本以来，就以精巧架构、简单易用、运行稳定、优异性能、环境适应性强在 MPP 数据库领域独占鳌头，基于

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

数据规模 • 20TB，每天增长400GB • 优势 • 将响应时间缩短90% “借助运行Greenplum数据引擎的Sun数据仓库设备，Reliance可以在快速发展，用户需求不断增加的数据环境中达到预期的高度响应能力。” - Reliance 的副总裁和主管（决策支持系统）Raj Joshi 25 响应时间 (分) 以前的数据库客户实例： PLDT • 业务问题 CDR分析全表扫描测试 – DWA测试环境：针对表C（372844366 rows）进行全表扫描，历时少于1.5 分钟。 – 客户投产环境：针对表C的一个子表（记录数约为C表的1/10）进行全表扫描，历时超过20分钟。结论：如果采用DWA替代现有环境，获得超过120倍的性能提升。 • 真实应用测试 – DWA测试结果：完成应用的全过程仅耗时48分钟。 – 客户投产环境：客户11月份月度处理时，完成本项任务需要65小时。成本项任务需要65小时。结论：如果采用DWA替代现有环境，获得超过80倍的性能提升。案例分享：阿里巴巴 • 业务用例 • 通过分析用户的网络点击日志，进行产品关联分析，让客户可以快速的找到相近产品 • Existing Solution • Oracle • Facts • 6台华为-赛门铁克T3500服务搭建数据库阵列 • 每台T3500服务器可以自带24TB硬盘 • 每台服务器含有两个四核的CPU(8

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

.....................................................................................3 以开源创新替代专有分析环境 .................................................................................................. Pivotal Greenplum 不受限于基础架构，这意味着它是一种可完全移植的分析数据库软件解决方案，可部署在多云环境（公有云和私有云）中，也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计，能够处理多种并发混合工作负载的复杂查询。与旧式 MPP 数据库中常用的传统 RDBMS Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5：新一代数据平台图 1：Pivotal Greenplum 5：新一代数据平台。以开源创新替代专有分析环境为了支持 Greenplum 的后续发展，Pivotal 于 2015 年决定将其产品 Greenplum Database 开源。由此产生的最积极结果是 Greenplum Database

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum机器学习⼯具集和案例

com 用户案例例2 基于API日志的⾦金金融产品⽤用户分析 2017.thegiac.com 问题 ● 更更好地理理解不不同种类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ● 对实时API请求进⾏行行分类和安全检测 ● 数据量量⼤大，现有数据分析团队缺乏技能客户数据科学解决⽅方案 ● 某⼤大型跨国⾦金金融服务公司 ● 移动应⽤用

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum介绍

Segment host与master是通过greenplum的内部网络互联起来的，外部用户不需要访问这个内部网络的。 Segment 与Segment之间是有网络连接的，所以 Segment之间可以直接交互数据的。 Greenplum默认使用UDP协议，不过我们发现UDP有时不稳定，我们一般都使用TCP协议。使用TCP协议， greenplum最多1000个segment。 Greenplum中的高可用方案

0 码力 | 38 页 | 655.38 KB | 1 年前
3
Greenplum 编译安装和调试

2.1 手工集群初始化下面介绍如何手工部署一个单机集群：在一台笔记本上安装一个Greenplum的集群，包括一个 master，两个segments。 # step 0. 系统环境配置 $ /etc/sysctl.conf kernel.shmmax = 500000000 kernel.shmmni = 4096 kernel.shmall = 4000000000 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072 $ sudo reboot # step 1. source一些环境变量, 例如PATH $ source $HOME/gpdb.master/greenplum_path.sh # step 2. 交换集群中所有机器的ssh密钥, 我们这里只有一台机器 segment 时出错，并且看不到具体错误信息（通常由于错误信息被重定向到 /dev/null 了），则可以尝试手动启动 segment。手动启动segment的命令参加下面，需要根据自己的环境修改某些路径或者参数： export LD_LIBRARY_PATH=/home/gpadmin/build/gpdb.master/lib:/lib:;export

0 码力 | 15 页 | 2.07 MB | 1 年前
3

共 15 条前往

页

分类

语言

格式

Greenplum 精粹文集

Greenplum Database 管理员指南 6.2.1

并行不悖- OLAP 在互联网公司的实践与思考

Greenplum数据仓库UDW - UCloud中立云计算服务商

完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

Greenplum 新一代数据管理和数据分析解决方案

Pivotal Greenplum 5：新一代数据平台

Greenplum机器学习⼯具集和案例

Greenplum介绍

Greenplum 编译安装和调试