Greenplum机器学习⼯具集和案例www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: 新一代开源大数据平台 Gemfire SQL 语法支持 需要提升 磁盘数据 不是核心焦点 并发性能 不是核心焦点 大数据关联 不是核心焦点 2017.thegiac.com ⽤用户案例例 1 Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测 模型不不够精准,需 要更更好的邮件营销 策略略 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客 户 商业影响 2017.thegiac.com 用户案例例2 基于API日志的⾦金金融产品⽤用户分析 2017.thegiac.com 问题 ● 更更好地理理解不不同种 类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ●0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商Json处理函数 接⼊第三⽅ 接⼊第三⽅ BI ⼯具 ⼯具 ⼀、 UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例 使⽤案例 案例⼀ 利⽤ logstash+Kafka+UDW 对⽇志数据分析 案例⼆ 基于UDW实现⽹络流分析 PXF 扩展 扩展 配置 PXF 服务 创建 EXTENSION 读写 HDFS ⽬录 Greenplum数据仓库 优刻得 5/206 概览 概览 产品架构 快速上⼿ 操作指南 访问UDW数据仓库 数据导⼊ 开发指南 udw优化指南 表膨胀 UDW中Json类型 接⼊第三⽅ BI ⼯具 UDW 使⽤案例 Pxf 扩展功能 迁移数据 使⽤ pg_dump 使⽤ pxf 外部表 FAQs 数据仓库价格 概览 Greenplum数据仓库 UDW Copyright © 2012-2021 com/airbnb/superset 接⼊第三⽅ BI ⼯具 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 176/206 UDW 使⽤案例 使⽤案例 案例⼀ 案例⼀ 利⽤ 利⽤ logstash+Kafka+UDW 对⽇志数据分析 对⽇志数据分析 Logstash 是⽬前⽐流⾏、使⽤较多的⽇志收集和管理系统,Kafka也是企业常⽤的分布式发布-订阅消息系统,UDW(UCloud0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案解我们的客户及其需求。” PLDT的Alexander Seminiano Sun DW Oracle 1 10 15 mins 20X 5 hours Greenplum现有国内客户案例分析 • 巨人网络(征途游戏):财务分析、游戏在线分析 • 阿里巴巴:B2B、B2C、点击、在线分析 • 上海航空:航线结算分析 • 东方航空:航线结算分析 • 民族证券:数据中心,证券投资分析 • 深发展银行:数据中心兼ODS • 李宁公司:销售和库存分析 • 公安部:图像分析 • 国家海洋局:海洋数据采集与分析 • 上海安吉物流:收入&市场分析、客户经理跟踪分析 • 中远集团:收入、发展、销售分析 案例分享(征途游戏) • 现有运行平台 – 服务器平台:SUN X4600一台,4路dual-core CPU 共8core,32GB – 存储平台:NetApp一台 – 网络平台:千兆网络 – 软件平台:RedHat 真实应用测试 – DWA测试结果:完成应用的全过程仅耗时48分钟。 – 客户投产环境:客户11月份月度处理时,完成本项任务需要65小时。 结论:如果采用DWA替代现有环境,获得超过80倍的性能提升。 案例分享:阿里巴巴 • 业务用例 • 通过分析用户的网络点击日志,进行产品关联分析,让客户可以 快速的找到相近产品 • Existing Solution • Oracle • Facts •0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 精粹文集方面的投入。这些系统包括:历史数据系统、ETL 临时数据区、数 据交换平台等等。 切记,千万不要为了大数据而大数据(就好像不要为了创新而创新一 个道理),否则,你项目最后的产出与你的最初设想可能 将差之千里,行业内不乏失败案例。 最后,提一下,GreenplumMPP 数据库支持用“Hadoop 外部表“方 式来访问、加载 HadoopFS 的数据,虽然 Greenplum 的 Hadoop 外部 表性能大幅低于 MPP 特点规划好硬件采购,并合理的实施,可以避免后面很多的问题。 Greenplum 不挑硬件:无论是 Cisco 还是华三的交换机;无论是 IBM、DELL、HP 还是华为、浪潮的 PC 机;无论是刀片还是 PC 在 国内外都有大量的案例;Greenplum 不挑系统:无论是 RedHat、 CentOS 还是 SuSe,Greenplum 都可以畅快的运行,你甚至可以在 自己的 MAC 笔记本上直接安装、玩耍;但 Greenplum 或 6 个为宜。 同样,作为整体架构设计的重要 组成部分,ETL 服务器、监控管 理,备份策略如何规划,如何高 效组网都得在前期考虑好。在我 们的成功案例中,同一个企业级 数据平台中 Greenplum 集群和 Hadoop 集群配合运作的案例越 来越多。在中国移动的大数据架 构规范中,云化 ETL 是一个重 要的组成部分。云化 ETL 就是构架在 Hadoop 集群之上。Greenplum 提供了专用产品模块0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议必须保证参与分布式事务的各个场地 (节点)的事务,要么全部提交,要么 全部rollback,不能出现部分提交的情 况。 一阶段提交不能保证 分布式事务的原子性 23 两阶段提交协议 ● Jim Gray等研究者在1978年提出了两阶段提交协议,用于保证分布式事务提交的原子性 ● 可以用于单机集中式系统,由事务管理器协调多个资源管理器;也可以用于分布式系 统,由一个全局的 事务管理器协调各个子系统的局部事务管理器完成两阶段提交0 码力 | 42 页 | 2.12 MB | 1 年前3
Pivotal HVR meetup 2019081617 Compare Products 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 18 Compare Products ➢ 案例需求全部满足 ➢ 生产环境实验同步 ➢ 支持全量同步、增量实时同步,无延时 ➢ 支持多种数据同构、异构数据同步 ➢ 过滤器制作规则处理异常数据 ➢ 可以达到BI系统的实时要求 ➢ 网络带宽利用率低,且支持数据的安全传输0 码力 | 31 页 | 2.19 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台SELCT diskquota.set_schema_quota ('s1', '1 MB'); SELECT diskquota.set_role_quota ('u1', '1 MB'); 客户案例 ■ 通过kafka近实时(500ms~1s) 间隔加载:100万/s ■ 简单查询1000并发:1s内返回 ■ 复杂关联查询:s级返回 数据量 机器数 表个数 索引个数 并发数 插入间隔 平均时延0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1dirty_background_ratio = 5 vm.dirty_bytes = 0 vm.dirty_ratio = 10 这里就不对每一项做解释了,这个配置是编者一直使用的版本,有兴趣可以对其中 的配置项深入研究一下,也欢迎反馈给编者。有些配置设置的比推荐值大了很多,主要 目的是为了使用多种硬件配置环境,比如共享内存等,实际上,真实的内存使用量,数 据库本身仍会有限制参数。 修改 limits 据的分布与倾斜 "章节介绍了目前最先进的检查数据倾斜的方案。 编者已经介绍了最先进的检查数据倾斜的方案,所以,gp_toolkit模式中的关于 数据倾斜的视图,编者不再介绍,有兴趣的可以自行研究一下,无异于count(*)。 计算倾斜 倾斜可能会有多种表现,比如,从整体的磁盘使用量分布来看,从每张数据表的尺 寸分布来看,从计算过程来看。对于管理人员来说,应该定期对磁盘使用量的分布和数0 码力 | 416 页 | 6.08 MB | 1 年前3
共 8 条
- 1













