Greenplum机器学习⼯具集和案例thegiac.com MADlib vs. Spark: 不不同的产品,侧重点不不同 MADlib Spark 算法库 易用性 需要编程 查询优化 成熟度稍差 内存和流处理 通过 Gemfire SQL 语法支持 需要提升 磁盘数据 不是核心焦点 并发性能 不是核心焦点 大数据关联 不是核心焦点 2017.thegiac.com com 数据整理理 数据准备 信息价值和证据权 重 成对相关性 删除⾼高度相关变量量 逻辑回归 计算 KS 分值 模型验证 ⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 特征⽣生成 验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 439 特征 ● 4,517 ⾏行行代码 ● 100 分钟 ● 934 特征 ● 1,438 ⾏行行代码 ● 30 分钟 多 495 个特征,快 3.33x 信息价值 ● ~450 个变量量,~30分 钟计算结果并写⼊入 excel ● 在 GPDB 中花 58 秒计 算 ~200 个变量量的IV 13.7x/变量量 建模 ● < 500 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案“可能会成为数据仓库和数据 库管理系统市场的突破力量” Gartner的Donald Feinberg 17 通过Greenplum超级数据处 理引擎增强竞争优势 Greenplum数据引擎:内容和方式 价值主张 – 性价比: 性能可达到传统方案(Oracle、Teradata)的 10到100倍, 而成本只是其一小部分 – 可伸缩性:从较低的万亿字节扩展到千万亿字节 – 开放式系统:在通用系统和开放源软件的基础上创建 开放式系统:在通用系统和开放源软件的基础上创建 前提条件 – 硬件:基于开放式标准硬件 – 软件:Postgres和Greenplum – 体系架构:海量并行处理体系,针对商务智能/数据仓库 进行了优化,解决了所有数据流瓶颈问题 Greenplum数据引擎 全球最强大的分析数据仓库 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、 “完全不共享”体系 Greenplum体系:并行数据流 21 • 通用并行数据流引擎可以通过本地方 式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 精粹文集来交换数据,效率很低,MapReduce 要求每个步骤间的数据都要序列 化到磁盘,这意味着 MapReduce 作业的 I/O 成本很高,导致交互分 析和迭代算法开销很大,MPP 数据库采用 Pipline 方式在内存数据流 中处理数据,效率比文件方式高很多。 总结以上几点,MPP 数据库在计算并行度、计算算法上比 Hadoop 更加 SMART,效率更高;在客户现场的测试对比中,Mapreduce 对 于单表的计算尚 以其优越的性能为越来越多的客 户所理解与接受。作为中国大数据市场的探路先锋,Pivotal 将以一个 我们亲力打造的大数据项目为例,与大家一起分享 Greenplum 在项目 实施过程中为客户创造的那些真实的价值,如何与客户一起开拓大数 据之路。 在国内某大型金融机构的大数据处理平台,使用 Greenplum 数据库产 品支撑其 ODS 及各类集市应用。项目从 2013 年 6 月份开始到 2015 年底,生产环境已经由最初的一套集群发展到 践和真知灼见转化成能够为更多客户服务的宝贵价值! Big Date2.indd 23 16-11-22 下午3:38 24 三、Greenplum 硬件选型篇 前 面 我 们 通 过 某 金 融 行 业 客 户 Greenplum 的 使 用 案 例 介 绍 了 Greenplum 产品在高吞吐、开放性、 易扩展等方面的卓越表现及其带 给客户的高价值。下面我们将从最佳实践方面介绍下 Greenplum0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.11~6级的压缩选项作为通用压缩选项,如果对压缩效果不是很敏感, 可以使用1级ZSTD压缩作为通用压缩选项。 RLE可能是一个最没有存在感的压缩算法,因为真的没有什么实用价值,另外,列 存表在不同的列上设置不同的压缩选项往往也是多余的,实在多余,毫无价值,因为这 样做并不会得到什么有意义的效果,所以,还不如忘了这个事情,直接在表级别设置压 缩属性就好了,编者编写的ddl备份脚本就直接忽略了字段级别的压缩属性,因为这毫 维护一块BUFFER, 因此重度分区表和列存储表也会消耗更多的内存。 根据以往的经验,修改blocksize往往并不会带来任何的好处,所以,没必要在 这一块花很多的心思,因为不会有什么有价值的收获。 修改表定义 ALTER TABLE命令用于改变现有表的定义。通过ALTER TABLE命令可以改变 TABLE的各种属性,如:列定义、分布策略、存储模式和分区结构(可参见"维护分区 径必须是 Master工作目录的相对路径,或者绝对路径。 当COPY数据到STDOUT或从STDIN COPY数据数据时,实际上是GP的Master和客 户端之间的数据复制。这样就实现了远程流数据的复制,比如要从一个集群复制少量数 据到另一个集群,可以采用如下的命令: $ psql -h src -d srcdb -c 'COPY test TO STDOUT'|psql -h des0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例 使⽤案例 案例⼀ 利⽤ logstash+Kafka+UDW 对⽇志数据分析 案例⼆ 基于UDW实现⽹络流分析 PXF 扩展 扩展 配置 PXF 服务 创建 EXTENSION 读写 HDFS ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 2012-2021 UCloud 优刻得 176/206 UDW 使⽤案例 使⽤案例 案例⼀ 案例⼀ 利⽤ 利⽤ logstash+Kafka+UDW 对⽇志数据分析 对⽇志数据分析 Logstash 是⽬前⽐流⾏、使⽤较多的⽇志收集和管理系统,Kafka也是企业常⽤的分布式发布-订阅消息系统,UDW(UCloud Data Warehouse)是⼤规模并⾏处理数据仓库产品,下⾯介 绍⼀些利⽤ logstash+Kafka+UDW 接⼊第三⽅的BI系统,请参考我们的⽂档: UDW接⼊第三⽅BI系统 案例⼆ 案例⼆ 基于 基于UDW实现⽹络流分析 实现⽹络流分析 背景介绍 背景介绍 ⽹络流分析主要包括对⽤⼾的⽹络流数据进⾏存储和多维度的分析两部分。⽤⼾的⽹络流的数据每天产⽣400G左右,数据保留10天。针对⽹络流数据的分析主要包含流量分析、包量分析、 TCP延迟分析、HTTP状态码分析、TCP重传分析等。 UDW 使⽤案例0 码力 | 206 页 | 5.35 MB | 1 年前3
PostgreSQL和Greenplum 数据库故障排查2018年PostgreSQL中国技术大会 自我介绍 微信号:laohouzi999 2018年PostgreSQL中国技术大会 • 赵振平,太阳塔技术总监 • 电子工业出版社签约作家 • 腾讯最具价值专家(TVP) • 计算机畅销书作家 • 贵州省省管专家 • 国家首批大数据高级职称 • 出版了技术专著《Oracle数据库精讲与疑难解析》 • 出版了技术专著《成功之路:Oracle 11g学习笔记》0 码力 | 84 页 | 12.61 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享多级容错机制 无共享大规模并行处理 先进的查询优化器 多态存储系统 客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 任务管理 服务 加载 & 数据联邦 高速数据加载 近实时数据加载 任意系统数据访问 存储 & 数据访问 混合存储引擎(行存&列存) 一个数据节点可以配置多个节点实例(Segment Instances) • 节点实例并行处理查询(SQL) • 数据节点有自己的CPU、磁盘和 内存(Share nothing) • 高速Interconnect处理持续 数据流(Pipelining) Interconnect Segment Host Segment Instance Segment Instance Segment Instance Segment Instance0 码力 | 44 页 | 8.35 MB | 1 年前3
Pivotal HVR meetup 20190816天天拍车是国内领先的二手车竞拍平台,现有核心业务是二手车线上 竞拍。同时,天天拍车还提供上门检测、线上竞拍、包办手续等一站 式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得0 码力 | 31 页 | 2.19 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 Ø事务大,频率相对小,并发低 • 未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈0 码力 | 43 页 | 9.66 MB | 1 年前3
共 9 条
- 1













