Greenplum 精粹文集再通俗点说,Greenplum 主要定位在 OLAP 领域,利用 Greenplum MPP 数据库做大数据计算或分析平台非常适合,例如 : 数据仓库系统、 ODS 系统、ACRM 系统、历史数据管理系统、电信流量分析系统、移 动信令分析系统、SANDBOX 自助分析沙箱、数据集市等等。 Big Date2.indd 11 16-11-22 下午3:38 12 而 MPP 数据库都不擅长做 OLTP 的架构, Greenplum 是通过以太网络将多台物理机连在一起,也就是网络资源 是大家要共享的,所以在部署 Greenplum 集群的时候,一定要规划好 网络设备的接入,在达到性能最大的同时,也要考虑大流量对现有业 务系统是否造成影响。 Greenplum 建议采用以太网万兆交换机,并通过设定跨设备链路 聚 合 组(MC-LAG Multi-ChassisLink Aggregation Group) 动重启,最后又将网络设备改回万兆交换机。 ·网卡绑定采用 mode=4 (802.3ad),流量传输 hash 策略选用 xmit_hash_policy=layer3+4【((sourceport XOR dest port) XOR ((source IP XOR dest IP) AND 0xffff) modulo)】,这 样能保证流量均匀的打在多块网卡上,另外注意采用 mode4 绑定的 时候,一定要把交换机设置在 0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商{ name: 'brown', height: 68 } 2 图形界⾯的⽅式访问 图形界⾯的⽅式访问UDW 2.1 配置 配置UDW外⽹访问 外⽹访问 udw默认是通过内⽹访问的,为了数据安全性,尽量不要通过外⽹访问UDW,如果需要图形界⾯的⽅式访问UDW,则需要配置udw的外⽹访问,请参考: 前提:有⼀台可以访问 udw 的 uhost,并且这台 uhost 上可以访问外⽹ ip。 基于UDW实现⽹络流分析 实现⽹络流分析 背景介绍 背景介绍 ⽹络流分析主要包括对⽤⼾的⽹络流数据进⾏存储和多维度的分析两部分。⽤⼾的⽹络流的数据每天产⽣400G左右,数据保留10天。针对⽹络流数据的分析主要包含流量分析、包量分析、 TCP延迟分析、HTTP状态码分析、TCP重传分析等。 UDW 使⽤案例 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 EVERY (86400) ); 其中,id 为记录序号,通过 serial(序列)实现⾃增;uuid 存储⽤⼾组织 ID 或者⽤⼾的 IP;item_id 为代表某种分析项的 id(分析项如IP流量、TCP包量、TCP重传率等);time为时间戳; data为数据。 样本数据如下图所⽰: UDW 使⽤案例 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案Enterprise Credibility Aging Proprietary Legacy Scalable, Open Software-Based Commodity HW • 用户人数 • 安全度 • 查询、报告、分析的数量 • 数据的高度多样性 • 大量定制数据 • 监管要求 商务智能/数据仓库发展趋势 一切都在增长! 数据仓库工作量:数据膨胀 面临的新难题是如何处理大规模数据 万亿字节 千兆字节 行业商务智能解决方案的实例 政府 电信 金融服务 公民服务 国家安全 电子政务 法规实施和监管 人力资本管理 信息传播 合规性报告 资产组合分析 客户报表 电汇通知 分部记分卡 客户关系管理、收 购和盈利率 欺诈检测 欺诈分析 客户流失分析 响应时间 流量分析 产品关联/捆绑 零售 存储运营分析 客户忠诚度计划 协作规划和预估 预防亏损 裁 Arnie Gullov-Singh 24 净数据规模 (TB) 2008年9月 2008年12月 客户实例:Reliance Communications • 业务问题 • CDR安全合规性和分析 • 已有方案 • Oracle • 数据规模 • 20TB,每天增长400GB • 优势 • 将响应时间缩短90% “借助运行Greenplum数据引擎的Sun数据仓库设0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum机器学习⼯具集和案例分钟 ● 934 特征 ● 1,438 ⾏行行代码 ● 30 分钟 多 495 个特征,快 3.33x 信息价值 ● ~450 个变量量,~30分 钟计算结果并写⼊入 excel ● 在 GPDB 中花 58 秒计 算 ~200 个变量量的IV 13.7x/变量量 建模 ● < 50 个变量量,运⾏行行⼀一 次逻辑回归迭代需要 ~30 分钟 ● 对实时API请求进 ⾏行行分类和安全检测 ● 数据量量⼤大,现有数 据分析团队缺乏技 能 客户 数据科学解决⽅方案 ● 某⼤大型跨国⾦金金 融服务公司 ● 移动应⽤用 API 分析 ● 使⽤用Madlib进⾏行行聚 类分析,建⽴立会话 识别模型和主题模 型 ● 建⽴立scoring pipeline, 对新访问 的安全性进⾏行行评估 ● 使⽤用可视化⼯工具对 使用Greenplum+MADlib对⼤大数据 集进⾏行行了了更更充分的分析 X 没有良好的⽤用户分类体系 ✓ 建⽴立了了两套模型对典型⽤用户进⾏行行 聚类分析,对⽤用户群体和⽤用户习惯 有了了更更深⼊入的了了解,制定相应的营 销策略略 X 不不能⾼高效监测可疑Session ✓ 建立了可疑Session实时评分体系 X 考虑转换到Teradata ✓ 决定增加Greenplum Cluster数量0 码力 | 58 页 | 1.97 MB | 1 年前3
Pivotal HVR meetup 20190816Storage/Big Query 13 Compare Products 天天拍车是国内领先的二手车竞拍平台,现有核心业务是二手车线上 竞拍。同时,天天拍车还提供上门检测、线上竞拍、包办手续等一站 式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 生产环境实验同步 ➢ 支持全量同步、增量实时同步,无延时 ➢ 支持多种数据同构、异构数据同步 ➢ 过滤器制作规则处理异常数据 ➢ 可以达到BI系统的实时要求 ➢ 网络带宽利用率低,且支持数据的安全传输 一些事前没有考虑到的问题: 1. 数据质量问题 0000-00-00 00:00:00 28:00:00 2. 数据乱码问题 3. DDL复制 4. 生产端历史数据purge问题 5. ……0 码力 | 31 页 | 2.19 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum.............................................................................................. 8 安全可信 ................................................................................................ ....................................................................................... 11 利用容器实现安全分析 ................................................................................................ 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源社区强强联手,不仅是双方业务用户所期盼的,同时也是 Greenplum 社区与对中国本地开源社 区的深入合作尝试。本次合作对双方打造丰富应用生态注入了鲜活动力!0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1..................................................................................... - 24 - 角色与权限安全的最佳实践 ............................................................................................ - ....................................................................................... - 381 - 账户安全 .................................................................................................. 会散落在后面的一台或者多台机器上, 这种模式包含了 gpinitsystem 命令缺省支持的两种镜像模式:GROUP 和 SPREAD。 PAIR 模式是一种两组配对互为镜像的模式,是一种更能兼顾性能和安全性的方案。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 17 - Instance0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum资源管理器2017 年象行中国(杭州 站)第一期 Greenplum资源管理器 姚珂男/Pivotal kyao@pivotal.io 2017 年象行中国(杭州 站)第一期 Agenda • Greenplum数据库 • Resource Queue • Resource Group 2017 年象行中国(杭州 站)第一期 Greenplum数据库 • 基于PostgreSQL • 分布式 MPP(Massively Parallel Processing) 2017 年象行中国(杭州 站)第一期 Greenplum数据库 2017 年象行中国(杭州 站)第一期 Resource Queue • SQL语句并发控制 • 基于cost的并发控制 • 基于priority的CPU控制 • 内存控制 2017 年象行中国(杭州 站)第一期 Running Example • CREATE RESOURCE • CREATE ROLE r1 RESOUCE QUEUE rq; • SELECT * FROM gp_toolkit.gp_resqueue_status; 2017 年象行中国(杭州 站)第一期 内存控制 • virtual memory note keeping (gp_malloc) • statement_mem • gp_resqueue_memory_policy • work_mem0 码力 | 21 页 | 756.29 KB | 1 年前3
Greenplum备份恢复浅析2017 年象行中国(杭州 站)第一期 Greenplum备份恢复浅析 姓名:张文杰 邮箱:zhuodao.zwj@alibaba-inc.com 公司:阿里云 2017 年象行中国(杭州 站)第一期 Greenplum数据备份恢复: 1. 数据量较大 2. 不能完全使用Xlog日志备份 3. 需要保证数据完整性和一致性 2017 年象行中国(杭州 站)第一期 Greenplum提供了: tore) --copy、psql 2. 并行备份和恢复 --gpcrondump(gpdbrestore) 2017 年象行中国(杭州 站)第一期 并⾏备份和恢复 gpcrondump gpdbrestore 2017 年象行中国(杭州 站)第一期 gpcrondump⽤法(1/3) gpcrondump -x database_name [-s| -S [--oids] [--no-owner | --use-set-session-authorization] [--no-privileges] [--rsyncable] 2017 年象行中国(杭州 站)第一期 gpcrondump⽤法(2/3) gpcrondump命令使用-K 来指定唯一时间戳来标示某个备份集 文件,其中如果当前备份目录中存在更未来的备份集,则备份报错。 0 码力 | 17 页 | 1.29 MB | 1 年前3
Greenplum 排序算法. . 6 8 34 64 66 . . . 7 11 12 13 17 . . . 22 55 67 77 79 . . . 1 6 7 8 10 . . . 输 出 缓 冲 区 输 入 缓 冲 区 27 败者树算法(GP目前使用堆): ● 1. 输入每个顺串的第一个记录作为败者树的叶子节点。建立初始化败者树。 ● 2. 两两相比较,父亲节点存储了两个节点比较的败者(节点较大的值);胜利者 77 79 . . . 1 输 出 缓 冲 区 输 入 缓 冲 区 1 6 7 22 6 22 7 1 29 败者树 10 40 44 56 76 . . . 6 8 34 64 66 . . . 7 11 12 13 17 . . . 22 55 67 77 79 . . . 1 6 输 出 缓 冲 区 输 入 缓 冲 区 6 7 22 22 7 6 100 码力 | 52 页 | 2.05 MB | 1 年前3
共 19 条
- 1
- 2













