 Greenplum机器学习⼯具集和案例thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure Language PLPython, PLR 2017.thegiac.com PL/Python0 码力 | 58 页 | 1.97 MB | 1 年前3 Greenplum机器学习⼯具集和案例thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure Language PLPython, PLR 2017.thegiac.com PL/Python0 码力 | 58 页 | 1.97 MB | 1 年前3
 Greenplum 6新特性:
在线扩容工具GPexpand剖析Greenplum 6新特性: 在线扩容工具GPexpand剖析 杜佳伦 (jdu@pivotal.io) 大纲 • Greenplum 集群部署 • GPExpand简介与具体用法 • Greenplum 6中GPExpand的改进与实现 Greenplum 集群部署 Greenplum 集群部署 • gp_segment_configuration 字段名 描述 dbid 初始化时的值,对于一个被promote成primary的mirror节点,role 为’p’,preferred_role为’m’ mode 主从同步状态,’s’同步,’n’不同步 status 运行状态,’u’在线,’d’不在线 port 该节点的运行端口 hostname 节点的hostname address 通常和hostname相同 datadir 该节点的数据目录 Greenplum 集群部署 Greenplum GPExpand简介与具体用法 • 清理 – gpexpand –c – 会将gpexpand schema和下面关于扩容的表都清理掉 Greenplum 6中GPExpand的改进与实现 • 在线不停机 • 数据重分布优化 • 并行的优化 改进与实现 • 如何做到不停机 – 增加新节点只要在gp_segment_configuration里添加新节点信息即可 – 新节点以Maste0 码力 | 37 页 | 1.12 MB | 1 年前3 Greenplum 6新特性:
在线扩容工具GPexpand剖析Greenplum 6新特性: 在线扩容工具GPexpand剖析 杜佳伦 (jdu@pivotal.io) 大纲 • Greenplum 集群部署 • GPExpand简介与具体用法 • Greenplum 6中GPExpand的改进与实现 Greenplum 集群部署 Greenplum 集群部署 • gp_segment_configuration 字段名 描述 dbid 初始化时的值,对于一个被promote成primary的mirror节点,role 为’p’,preferred_role为’m’ mode 主从同步状态,’s’同步,’n’不同步 status 运行状态,’u’在线,’d’不在线 port 该节点的运行端口 hostname 节点的hostname address 通常和hostname相同 datadir 该节点的数据目录 Greenplum 集群部署 Greenplum GPExpand简介与具体用法 • 清理 – gpexpand –c – 会将gpexpand schema和下面关于扩容的表都清理掉 Greenplum 6中GPExpand的改进与实现 • 在线不停机 • 数据重分布优化 • 并行的优化 改进与实现 • 如何做到不停机 – 增加新节点只要在gp_segment_configuration里添加新节点信息即可 – 新节点以Maste0 码力 | 37 页 | 1.12 MB | 1 年前3
 Greenplum Database 管理员指南 6.2.1GP : Greenplum 数据库 Master : GP 的控制节点/实例 Standby : GP 的备用控制节点/实例 Host(主机) : GP 的一台独立的机器设备 Instance : GP 的计算实例,很多时候也叫 Segment Primary : GP 的主计算实例 Mirror : GP 的镜像计算实例 MPP : Primary 配对的镜像都在下一台机器上,这与自带的 group 模式一致。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 16 - 如下图所示,这是一种混合配对镜像模式,将一群数量为偶数的机器,分为两组, 每台机器的镜像分散在对面组的机器上。关于如何选择镜像模式,以及如何分散镜像关 目前,编者的一键式集群配置安装初始化命令已经内置了两种镜像模式,分别为 RING 和 PAIR。RING 是一种带有环状关系的镜像模式,典型的特征是,一组机器形成 对等的环,环上的每台机器,其对应的 Mirror 会散落在后面的一台或者多台机器上, 这种模式包含了 gpinitsystem 命令缺省支持的两种镜像模式:GROUP 和 SPREAD。 PAIR 模式是一种两组配对互为镜像的模式,是一种更能兼顾性能和安全性的方案。0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1GP : Greenplum 数据库 Master : GP 的控制节点/实例 Standby : GP 的备用控制节点/实例 Host(主机) : GP 的一台独立的机器设备 Instance : GP 的计算实例,很多时候也叫 Segment Primary : GP 的主计算实例 Mirror : GP 的镜像计算实例 MPP : Primary 配对的镜像都在下一台机器上,这与自带的 group 模式一致。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 16 - 如下图所示,这是一种混合配对镜像模式,将一群数量为偶数的机器,分为两组, 每台机器的镜像分散在对面组的机器上。关于如何选择镜像模式,以及如何分散镜像关 目前,编者的一键式集群配置安装初始化命令已经内置了两种镜像模式,分别为 RING 和 PAIR。RING 是一种带有环状关系的镜像模式,典型的特征是,一组机器形成 对等的环,环上的每台机器,其对应的 Mirror 会散落在后面的一台或者多台机器上, 这种模式包含了 gpinitsystem 命令缺省支持的两种镜像模式:GROUP 和 SPREAD。 PAIR 模式是一种两组配对互为镜像的模式,是一种更能兼顾性能和安全性的方案。0 码力 | 416 页 | 6.08 MB | 1 年前3
 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum........................................................................................... 10 集群在线扩容 ................................................................................................ 白皮书 7 白皮书 | 7 1. 引领内核创新 云原生调度增强:针对云场景在线和离线业务混合部署场景,创新 CPU 调度算法保障在线业务对 CPU 的实时抢占及抖 动抑制,创新业务优先级 00M 内存回收算法保障在线业务安全可靠运行。 • 新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步 提升比较 大。一个优化有关 procarray 锁,另一个优化和事务有关,大多数 OLTP 查询带有主键或者分布键,这种查询不需要 两阶段提交(2PC)。 集群在线扩容 Greenplum 6 实现了不停库在线增加新节点, 期间不会中断正在运行的所有查询;另外采用了 Jump Consistent Hash 的一致性哈希算法, 在数据重分布期间,每个旧节点仅移动出需要移动的数据到新节点上0 码力 | 17 页 | 2.04 MB | 1 年前3 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum........................................................................................... 10 集群在线扩容 ................................................................................................ 白皮书 7 白皮书 | 7 1. 引领内核创新 云原生调度增强:针对云场景在线和离线业务混合部署场景,创新 CPU 调度算法保障在线业务对 CPU 的实时抢占及抖 动抑制,创新业务优先级 00M 内存回收算法保障在线业务安全可靠运行。 • 新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步 提升比较 大。一个优化有关 procarray 锁,另一个优化和事务有关,大多数 OLTP 查询带有主键或者分布键,这种查询不需要 两阶段提交(2PC)。 集群在线扩容 Greenplum 6 实现了不停库在线增加新节点, 期间不会中断正在运行的所有查询;另外采用了 Jump Consistent Hash 的一致性哈希算法, 在数据重分布期间,每个旧节点仅移动出需要移动的数据到新节点上0 码力 | 17 页 | 2.04 MB | 1 年前3
 Greenplum 新一代数据管理和数据分析解决方案将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 业务问题 • 改进定位广告 • 竞争对手 • Teradata, Oracle • 数据规模 Sun DW Oracle 1 10 15 mins 20X 5 hours Greenplum现有国内客户案例分析 • 巨人网络(征途游戏):财务分析、游戏在线分析 • 阿里巴巴:B2B、B2C、点击、在线分析 • 上海航空:航线结算分析 • 东方航空:航线结算分析 • 民族证券:数据中心,证券投资分析 • 北京第二外语大学:图书分析 • 中信银行:信用卡分析 • 深发展银行:数据中心兼ODS Facts • 6台华为-赛门铁克T3500服务搭建数据库阵列 • 每台T3500服务器可以自带24TB硬盘 • 每台服务器含有两个四核的CPU(8 Intel X5560) • 每台机器含有32GB内存 • 每台机器配置6个千兆网口 • Raid10 • Solaris 10 网站日志 交易数据 详细数据 Greenplum •海量基础数据 •大数据量查询 Oracle 加工数据0 码力 | 45 页 | 2.07 MB | 1 年前3 Greenplum 新一代数据管理和数据分析解决方案将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 业务问题 • 改进定位广告 • 竞争对手 • Teradata, Oracle • 数据规模 Sun DW Oracle 1 10 15 mins 20X 5 hours Greenplum现有国内客户案例分析 • 巨人网络(征途游戏):财务分析、游戏在线分析 • 阿里巴巴:B2B、B2C、点击、在线分析 • 上海航空:航线结算分析 • 东方航空:航线结算分析 • 民族证券:数据中心,证券投资分析 • 北京第二外语大学:图书分析 • 中信银行:信用卡分析 • 深发展银行:数据中心兼ODS Facts • 6台华为-赛门铁克T3500服务搭建数据库阵列 • 每台T3500服务器可以自带24TB硬盘 • 每台服务器含有两个四核的CPU(8 Intel X5560) • 每台机器含有32GB内存 • 每台机器配置6个千兆网口 • Raid10 • Solaris 10 网站日志 交易数据 详细数据 Greenplum •海量基础数据 •大数据量查询 Oracle 加工数据0 码力 | 45 页 | 2.07 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商级数据仓库服务。UDW可以通过SQL让数据分析更简 单、⾼效,为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务分析能⼒。⽀持MADlib扩展,客⼾可以在udw上使⽤MADlib的扩展功能,从⽽让机器学习变得简单,⽀持PostGIS,可以⽅便 的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。 云数据仓库产品架构 云数据仓库产品架构 云数据库仓库 UDW 服务的架构图如下所⽰: /usr/lib64/libodbcpsqlS.so FileUsage = 1 3. 测试ODBC驱动是否安装成功 # odbcinst -q -d [PostgreSQL] 如果出现以上输出,代表在这台机器上已成功安装了PostgreSQL的ODBC驱动。 4. 编辑/etc/odbc.ini⽂件配置ODBC连接 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 Copyright © 2012-2021 UCloud 优刻得 56/206 3. 测试ODBC驱动是否安装成功 # odbcinst -q -d [PostgreSQL] 如果出现以上输出,代表在这台机器上已成功安装了PostgreSQL的ODBC驱动。 4. 编辑/etc/odbc.ini⽂件配置ODBC连接 [testdb] Description = PostgreSQL connection0 码力 | 206 页 | 5.35 MB | 1 年前3 Greenplum数据仓库UDW - UCloud中立云计算服务商级数据仓库服务。UDW可以通过SQL让数据分析更简 单、⾼效,为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务分析能⼒。⽀持MADlib扩展,客⼾可以在udw上使⽤MADlib的扩展功能,从⽽让机器学习变得简单,⽀持PostGIS,可以⽅便 的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。 云数据仓库产品架构 云数据仓库产品架构 云数据库仓库 UDW 服务的架构图如下所⽰: /usr/lib64/libodbcpsqlS.so FileUsage = 1 3. 测试ODBC驱动是否安装成功 # odbcinst -q -d [PostgreSQL] 如果出现以上输出,代表在这台机器上已成功安装了PostgreSQL的ODBC驱动。 4. 编辑/etc/odbc.ini⽂件配置ODBC连接 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 Copyright © 2012-2021 UCloud 优刻得 56/206 3. 测试ODBC驱动是否安装成功 # odbcinst -q -d [PostgreSQL] 如果出现以上输出,代表在这台机器上已成功安装了PostgreSQL的ODBC驱动。 4. 编辑/etc/odbc.ini⽂件配置ODBC连接 [testdb] Description = PostgreSQL connection0 码力 | 206 页 | 5.35 MB | 1 年前3
 Greenplum 精粹文集的操作和交互过程。 而对 MapReduce 编程明显是困难的,在原生的 Mapreduce 开发 框架基础上的开发,需要技术人员谙熟于 JAVA 开发和并行原理, 不仅业务分析人员无法使用,甚至技术人员也难以学习和操控。为 了解决易用性的问题,近年来 SQL-0N-HADOOP 技术大量涌现 出来,几乎成为当前 Hadoop 开发使用的一个技术热点趋势。 这 些 技 术 包 括:Hive、Pivotal 由于计算节点真正的负责计算, 计算节点的硬件性能直接影响到整体 集群的性能,Greenplum 建议单个集群最开始搭建的时候最好选用相 同规格的计算服务器,后续扩容也要保证新加机器的性不能低于原有 机器,这是由于 MPP 架构本身存在木桶效应,单台机器的性能短板, 很可能导致整体集群变慢,虽然 Greenplum 可以根据具体的硬件配置, 初始化的时候调整每台计算节点部署的实例数,但从具体实施看,极 少有客户这么做。 盘在性能和稳定 性上都明显的高于 SATA 盘 。 ·RAID 卡一定要带 cache,否则做完 RAID 后写的性能会非常差, 曾遇到一客户,把 GP 迁移到更大容量、更多磁盘的机器后,集群 性能反而下降,就是因为新采购的机器 RAID 卡没有 cache。 Big Date2.indd 26 16-11-22 下午3:38 Greenplum 精粹文集 27 ·加强硬件的监控,所有故障中,最怕硬件半死不活的状态,曾遇到0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集的操作和交互过程。 而对 MapReduce 编程明显是困难的,在原生的 Mapreduce 开发 框架基础上的开发,需要技术人员谙熟于 JAVA 开发和并行原理, 不仅业务分析人员无法使用,甚至技术人员也难以学习和操控。为 了解决易用性的问题,近年来 SQL-0N-HADOOP 技术大量涌现 出来,几乎成为当前 Hadoop 开发使用的一个技术热点趋势。 这 些 技 术 包 括:Hive、Pivotal 由于计算节点真正的负责计算, 计算节点的硬件性能直接影响到整体 集群的性能,Greenplum 建议单个集群最开始搭建的时候最好选用相 同规格的计算服务器,后续扩容也要保证新加机器的性不能低于原有 机器,这是由于 MPP 架构本身存在木桶效应,单台机器的性能短板, 很可能导致整体集群变慢,虽然 Greenplum 可以根据具体的硬件配置, 初始化的时候调整每台计算节点部署的实例数,但从具体实施看,极 少有客户这么做。 盘在性能和稳定 性上都明显的高于 SATA 盘 。 ·RAID 卡一定要带 cache,否则做完 RAID 后写的性能会非常差, 曾遇到一客户,把 GP 迁移到更大容量、更多磁盘的机器后,集群 性能反而下降,就是因为新采购的机器 RAID 卡没有 cache。 Big Date2.indd 26 16-11-22 下午3:38 Greenplum 精粹文集 27 ·加强硬件的监控,所有故障中,最怕硬件半死不活的状态,曾遇到0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum 编译安装和调试source一些环境变量, 例如PATH $ source $HOME/gpdb.master/greenplum_path.sh # step 2. 交换集群中所有机器的ssh密钥, 我们这里只有一台机器 $ gpssh-exkeys -h `hostname` # step 3. 生成三个配置文件: env.sh, hostfile, gpinitsystem_config PGPORT=5432 export MASTER_DATA_DIRECTORY=$HOME/data/master/gpseg-1 # hostfile 包括集群中所有机器的hostname, 我们这里只有一台 $ cat hostfile Greenplum 编译安装和调试source一些环境变量, 例如PATH $ source $HOME/gpdb.master/greenplum_path.sh # step 2. 交换集群中所有机器的ssh密钥, 我们这里只有一台机器 $ gpssh-exkeys -h `hostname` # step 3. 生成三个配置文件: env.sh, hostfile, gpinitsystem_config PGPORT=5432 export MASTER_DATA_DIRECTORY=$HOME/data/master/gpseg-1 # hostfile 包括集群中所有机器的hostname, 我们这里只有一台 $ cat hostfile- $ cat gpinitsystem_config ARRAY_NAME="Open 常用的调试器gdb/lldb虽然简单易用、功能也很强大,但是不直观。很多集成开发环境(IDE)提 供了非常直观、强大、易用的调试环境,包括 clion、eclipse、xcode 等。IDE 对于学习 Greenplum 代码也非常有帮助,可以大大提高效率。 下面简单介绍如何使用 clion 图形化用户界面调试 Greenplum 代码。(Eclipse、VisualCode具有 类似功能) 0 码力 | 15 页 | 2.07 MB | 1 年前3
 Pivotal Greenplum 5: 新一代数据平台Java、Perl、C Apache SOLR PostGIS ANSI SQL 其他数据库 SQL ML/统计数据/图形 程序化 文本 地理空间 公有云 私有云 完全 托管云 本地 BI / 报告 自定义应用 机器学习 AI SQL 大规模 并行处理 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload Manager 多态存储 Command Center SQL 兼容性 rpart、sandwich、scales、stringi、stringr、survival、tibble、tseries 和 zoo。 此外,Greenplum 5 还支持最新版 Apache MADlib(可用 SQL 进行机器学习和图分析),支持在 Apache Solr 数据库内实 施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接受 来自支持的 Solr 查0 码力 | 9 页 | 690.33 KB | 1 年前3 Pivotal Greenplum 5: 新一代数据平台Java、Perl、C Apache SOLR PostGIS ANSI SQL 其他数据库 SQL ML/统计数据/图形 程序化 文本 地理空间 公有云 私有云 完全 托管云 本地 BI / 报告 自定义应用 机器学习 AI SQL 大规模 并行处理 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload Manager 多态存储 Command Center SQL 兼容性 rpart、sandwich、scales、stringi、stringr、survival、tibble、tseries 和 zoo。 此外,Greenplum 5 还支持最新版 Apache MADlib(可用 SQL 进行机器学习和图分析),支持在 Apache Solr 数据库内实 施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接受 来自支持的 Solr 查0 码力 | 9 页 | 690.33 KB | 1 年前3
 Greenplum 6: 混合负载的理想数据平台Pivotal Confidential–Internal Use Only 卓越的OLAP特性 列式存储 分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only set_role_quota ('u1', '1 MB'); 客户案例 ■ 通过kafka近实时(500ms~1s) 间隔加载:100万/s ■ 简单查询1000并发:1s内返回 ■ 复杂关联查询:s级返回 数据量 机器数 表个数 索引个数 并发数 插入间隔 平均时延 最长时延 插入速度 9.8亿 18 4 12 16 500ms 170ms 1100ms 300万/s 展望 Greenplum 6.x/70 码力 | 52 页 | 4.48 MB | 1 年前3 Greenplum 6: 混合负载的理想数据平台Pivotal Confidential–Internal Use Only 卓越的OLAP特性 列式存储 分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only set_role_quota ('u1', '1 MB'); 客户案例 ■ 通过kafka近实时(500ms~1s) 间隔加载:100万/s ■ 简单查询1000并发:1s内返回 ■ 复杂关联查询:s级返回 数据量 机器数 表个数 索引个数 并发数 插入间隔 平均时延 最长时延 插入速度 9.8亿 18 4 12 16 500ms 170ms 1100ms 300万/s 展望 Greenplum 6.x/70 码力 | 52 页 | 4.48 MB | 1 年前3
共 19 条
- 1
- 2













