Greenplum 精粹文集在数据加载和数 据计算中表现出强悍的性能,某行业客户对此深有体会 : 同样 2TB 左 右的数据,在 Greenplum 中不到一个小时就加载完成了,而在用户传 统数据仓库平台上耗时半天以上。 在该用户的生产环境中,1 个数百亿表和 2 个 10 多亿条记录表的全表 关联中(只有 on 关联条件,不带 where 过滤条件,其中一个 10 亿 条的表计算中需要重分布),Greenplum 仅耗时数分钟就完成了, CPU core 的 计算能力,还不如关掉超线程以提高单 core 的能力),但即使是这样, 在那个测试中,测试性能也大幅低于 Greenplum(那个测试中,各厂 商基于客户提供的完全相同的硬件环境,Greenplum 是唯一一家完成 所有测试的,特别在混合负载测试中,Greenplum 的 80 并发耗时 3 个多小时就成功完成了,其它厂商大都没有完成此项测试,唯一完成 的一家耗时 40 多小时)。 MAP->Shuffle->Reduce 过程中通过文件 来交换数据,效率很低,MapReduce 要求每个步骤间的数据都要序列 化到磁盘,这意味着 MapReduce 作业的 I/O 成本很高,导致交互分 析和迭代算法开销很大,MPP 数据库采用 Pipline 方式在内存数据流 中处理数据,效率比文件方式高很多。 总结以上几点,MPP 数据库在计算并行度、计算算法上比 Hadoop 更加 SM0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1........................................................................... - 288 - 为 gpadmin 用户配置环境变量 ................................................................................... - 290 - 第十三章:启动与停止 是单 Master,可以最大限度的规避多 Master 架构的系统表频繁不一致的缺陷。 GP 是基于 PostgreSQL 发展而来,用户端可以如同访问 PostgreSQL 那样与 GP 进行交互。可以通过 PostgreSQL 客户端程序(如 psql、pgAdminIII)和应用程序 接口(APIs(如 JDBC、ODBC))连接 GP。不过,GP 在 5 版本和 6 版本中,因为 PostgreSQL $ PGOPTIONS='-c gp_session_role=utility' psql 在 GP 推荐的硬件配置环境下,每个 Instance 需要对应数个 CPU Core 的资源 资源,具体的比例需要根据数据库的适用场景进行综合评估。例如在生产环境,每个 Instance 所在的主机配置了 2 个 16 Core 的 CPU,可根据不同的场景,配置 4 ~ 12 个不等的 P0 码力 | 416 页 | 6.08 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 —— dbsync平台 7 数据仓库体系架构 数据架构示意图 8 数据仓库体系架构 架构的具体技术实现 • 轻量级数据仓库 —— Inforbright Greenplum现状说明 三大Greenplum集群定位分类 • 公司IDC_01机房Greenplum体系 Ø 公司第一套Greenplum集群,网络环境为千兆网 Ø 数据来源为OLTP库,针对小数据量传输和计算,部分实时交互操作 Ø 以对账业务为主,统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数 Ø Greenplum扩展规划 六 22 Greenplum运维体系 环境创建与部署 • 部署流程 Ø 规划部署方案 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系 环境创建与部署 • 部署注意点 Ø 资源要充足(ETL,管理节点,数据节点,数据集市)0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 17/206 yum install postgresql-jdbc.noarch –y Windows 环境下 JDBC 驱动,将 jar 添加到⼯程的 BUILD PATH。 ⽰例程序1,java连接UDW,执⾏建表,插⼊操作 PostgreSQLJDBC1.java import java.sql -d database -p port –W 1.3 JDBC⽅式访问 ⽅式访问 Linux操作系统 yum install postgresql-jdbc.noarch –y Windows环境下JDBC驱动,将jar添加到⼯程的BUILD PATH。 ⽰例程序1,java连接UDW,执⾏建表,插⼊操作 PostgreSQLJDBC1.java import java.sql.Connection; primary key 或者第⼀个 column 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 129/206 做哈希分布。 在MPP环境下,查询的执⾏时间是由所有节点决定的。当数据出现倾斜时,会导致较低的性能以及内存溢出的情况。 当选择分布键时,考虑以下⼏个⽅⾯: 1. 为所有的表显⽰地指定哈希或随机分布,不要使⽤默认的。 20 码力 | 206 页 | 5.35 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum................................................................................... 8 以开源创新替代专有分析环境 .................................................................................................. 解决方案,可部署在不同操作系统、 不同芯片的环境,适合本地部署、多云环境(公有云和私有云)中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源 繁荣社区生态 友好卓面环境:UKUDDEXfce 卓面环境,丰富社区卓面环境生态。 • 欧拉 DevKit:支持操作系统迁移、兼容性评估、简化安全配置 secPaver 等更多开发工具。 Greenplum:新一代 HTAP 数据平台 Greenplum 自 2006 年发布第一个版本以来,就以精巧架构、简单易用、运行稳定、优异性能、环境适应性强在 MPP 数据库领域独占鳌头,基于0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案数据规模 • 20TB,每天增长400GB • 优势 • 将响应时间缩短90% “借助运行Greenplum数据引擎的Sun数据仓库设备,Reliance可以在快速发展,用户需求不断增加 的数据环境中达到预期的高度响应能力。” - Reliance 的副总裁和主管(决策支持系统)Raj Joshi 25 响应时间 (分) 以前的数据库 客户实例: PLDT • 业务问题 CDR分析 全表扫描测试 – DWA测试环境:针对表C(372844366 rows)进行全表扫描,历时少于1.5 分钟。 – 客户投产环境:针对表C的一个子表(记录数约为C表的1/10) 进行全表扫 描,历时超过20分钟。 结论:如果采用DWA替代现有环境,获得超过120倍的性能提升。 • 真实应用测试 – DWA测试结果:完成应用的全过程仅耗时48分钟。 – 客户投产环境:客户11月份月度处理时,完成本项任务需要65小时。 成本项任务需要65小时。 结论:如果采用DWA替代现有环境,获得超过80倍的性能提升。 案例分享:阿里巴巴 • 业务用例 • 通过分析用户的网络点击日志,进行产品关联分析,让客户可以 快速的找到相近产品 • Existing Solution • Oracle • Facts • 6台华为-赛门铁克T3500服务搭建数据库阵列 • 每台T3500服务器可以自带24TB硬盘 • 每台服务器含有两个四核的CPU(80 码力 | 45 页 | 2.07 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台.....................................................................................3 以开源创新替代专有分析环境 .................................................................................................. Pivotal Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 询。与旧式 MPP 数据库中常用的传统 RDBMS Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 图 1:Pivotal Greenplum 5:新一代数据平台。 以开源创新替代专有分析环境 为了支持 Greenplum 的后续发展,Pivotal 于 2015 年决定将其产品 Greenplum Database 开源。由此产生的最积极结果是 Greenplum Database0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum机器学习⼯具集和案例com 用户案例例2 基于API日志的⾦金金融产品⽤用户分析 2017.thegiac.com 问题 ● 更更好地理理解不不同种 类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ● 对实时API请求进 ⾏行行分类和安全检测 ● 数据量量⼤大,现有数 据分析团队缺乏技 能 客户 数据科学解决⽅方案 ● 某⼤大型跨国⾦金金 融服务公司 ● 移动应⽤用0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum介绍Segment host与master是通过greenplum的内部网络互 联起来的,外部用户不需要访问这个内部网络的。 Segment 与Segment之间是有网络连接的,所以 Segment之间可以直接交互数据的。 Greenplum默认使用UDP协议,不过我们发现UDP有 时不稳定,我们一般都使用TCP协议。使用TCP协议, greenplum最多1000个segment。 Greenplum中的高可用方案0 码力 | 38 页 | 655.38 KB | 1 年前3
Greenplum 编译安装和调试2.1 手工集群初始化 下面介绍如何手工部署一个单机集群:在一台笔记本上安装一个Greenplum的集群,包括一个 master,两个segments。 # step 0. 系统环境配置 $ /etc/sysctl.conf kernel.shmmax = 500000000 kernel.shmmni = 4096 kernel.shmall = 4000000000 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072 $ sudo reboot # step 1. source一些环境变量, 例如PATH $ source $HOME/gpdb.master/greenplum_path.sh # step 2. 交换集群中所有机器的ssh密钥, 我们这里只有一台机器 segment 时出错,并且看不到具体错误信息(通常由于错误信息被重定向到 /dev/null 了),则可以尝试手动启动 segment。 手动启动segment的命令参加下面,需要根据自己的环境修改某些路径或者参数: export LD_LIBRARY_PATH=/home/gpadmin/build/gpdb.master/lib:/lib:;export0 码力 | 15 页 | 2.07 MB | 1 年前3
共 15 条
- 1
- 2













