 Greenplum Database 管理员指南 6.2.1Greenplum 和相关技术领域,主要工作职责是 售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 .......................................................................................... - 39 - 支持的客户端应用 ............................................................................................ ......................................................................................... - 271 - 支持的操作系统 .............................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1Greenplum 和相关技术领域,主要工作职责是 售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 .......................................................................................... - 39 - 支持的客户端应用 ............................................................................................ ......................................................................................... - 271 - 支持的操作系统 .............................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
 Pivotal HVR meetup 20190816异构平台环境下初始化同步 8 • 非侵入式技术对生产没有影响 • 基于日志捕获技术的实时性非常高 • 支持从过去的某一指定时间开始捕获 • 条件过滤 • 支持触发器捕获技术作为补充 基于数据库事务日志的变化数据捕获 9 • 避免人为错误 • 在迁移结束前校验数据 • 支持异构 异构平台间数据校验域修复 10 内置监控与报警 • 实时监控HVR进程 • 自动告警 • 与第三方企业监控平台集成 user; if that’s not configured just OS username Next and previous events 11 12 支持广泛的异构平台间数据复制 * HVR5.6还支持z/OS,Google Cloud Storage/Big Query 13 Compare Products 天天拍车是国内领先的二手车竞拍平台,现有核心业务是二手车线上 dxjW6RNA 14 Compare Products 需求:利用GP自建数据仓库面临的数据集成问题 ➢ 支持MySQL的全量以及增量备份 ➢ 支持Oracle的全量以及增量备份 ➢ 支持SQL Server的全量同步 ➢ 对于增量备份可以支持准实时的同步也可以支持延时同步 ➢ 同步软件不会对源库造成负载上升的问题 ➢ 同步中断后能够记录中断点,在下次同步时可以自动从中断点开始继续同步数据0 码力 | 31 页 | 2.19 MB | 1 年前3 Pivotal HVR meetup 20190816异构平台环境下初始化同步 8 • 非侵入式技术对生产没有影响 • 基于日志捕获技术的实时性非常高 • 支持从过去的某一指定时间开始捕获 • 条件过滤 • 支持触发器捕获技术作为补充 基于数据库事务日志的变化数据捕获 9 • 避免人为错误 • 在迁移结束前校验数据 • 支持异构 异构平台间数据校验域修复 10 内置监控与报警 • 实时监控HVR进程 • 自动告警 • 与第三方企业监控平台集成 user; if that’s not configured just OS username Next and previous events 11 12 支持广泛的异构平台间数据复制 * HVR5.6还支持z/OS,Google Cloud Storage/Big Query 13 Compare Products 天天拍车是国内领先的二手车竞拍平台,现有核心业务是二手车线上 dxjW6RNA 14 Compare Products 需求:利用GP自建数据仓库面临的数据集成问题 ➢ 支持MySQL的全量以及增量备份 ➢ 支持Oracle的全量以及增量备份 ➢ 支持SQL Server的全量同步 ➢ 对于增量备份可以支持准实时的同步也可以支持延时同步 ➢ 同步软件不会对源库造成负载上升的问题 ➢ 同步中断后能够记录中断点,在下次同步时可以自动从中断点开始继续同步数据0 码力 | 31 页 | 2.19 MB | 1 年前3
 Pivotal Greenplum 最佳实践分享Greenplum运维常用命令  Greenplum日常检查和故障处理  Greenplum项目经验分享 内核参数  通常情况下,内核参数按照GPDB安装手册配置,如需要增加连接数支持,以下参数需要增大  kernel.shmmax = 1000000000  kernel.sem = 250 512000 100 2048  Redhat 6.2以后,内核增加 class -> relfilenode)将会发生改变。 Vacuum Full的处理性能非常低,一般情况下不建议采用,可以用Reorganize代替、或者使用AO表; 系统表不支持Reorganize操作,因此,需要定期vacuum,例如设置定时作业,每周对所有系统表vacuum analyze一次 • 查询视图GP_TOOLKIT.GP_BLOAT_DIAG可监控垃圾空间的膨胀系数 pg_class对象数如果不进行约束,可能会产生以下问题: – gprecoverseg –F效率低,数据库实例修复如果增量同步失败,我们一般会建议使用gprecoverseg –F进行全量同 步,全量同步是在两个节点之间全量拷贝文件,超过10 0000个对象,在数据目录下地文件数会可能达到上百万 个档,这些文件的拷贝需要花费很长时间 – 使用gpexpand扩容节点时,对象数多,对应到每个实例下0 码力 | 41 页 | 1.42 MB | 1 年前3 Pivotal Greenplum 最佳实践分享Greenplum运维常用命令  Greenplum日常检查和故障处理  Greenplum项目经验分享 内核参数  通常情况下,内核参数按照GPDB安装手册配置,如需要增加连接数支持,以下参数需要增大  kernel.shmmax = 1000000000  kernel.sem = 250 512000 100 2048  Redhat 6.2以后,内核增加 class -> relfilenode)将会发生改变。 Vacuum Full的处理性能非常低,一般情况下不建议采用,可以用Reorganize代替、或者使用AO表; 系统表不支持Reorganize操作,因此,需要定期vacuum,例如设置定时作业,每周对所有系统表vacuum analyze一次 • 查询视图GP_TOOLKIT.GP_BLOAT_DIAG可监控垃圾空间的膨胀系数 pg_class对象数如果不进行约束,可能会产生以下问题: – gprecoverseg –F效率低,数据库实例修复如果增量同步失败,我们一般会建议使用gprecoverseg –F进行全量同 步,全量同步是在两个节点之间全量拷贝文件,超过10 0000个对象,在数据目录下地文件数会可能达到上百万 个档,这些文件的拷贝需要花费很长时间 – 使用gpexpand扩容节点时,对象数多,对应到每个实例下0 码力 | 41 页 | 1.42 MB | 1 年前3
 深度揭秘Greenplum开源数据库透明加密5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb GPDB GPDB的数据安全 • 不兼容ETL工具 性能低 • 不支持索引 • 优化器无法使用,需要全表扫描 局限性高 • 多表关联查询需要先全表解密 • 只能加密表数据 pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 com/greenplum-db/gpdb Recall pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall GPDB数据透明加密方案设计0 码力 | 48 页 | 10.19 MB | 1 年前3 深度揭秘Greenplum开源数据库透明加密5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb GPDB GPDB的数据安全 • 不兼容ETL工具 性能低 • 不支持索引 • 优化器无法使用,需要全表扫描 局限性高 • 多表关联查询需要先全表解密 • 只能加密表数据 pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 com/greenplum-db/gpdb Recall pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall GPDB数据透明加密方案设计0 码力 | 48 页 | 10.19 MB | 1 年前3
 Greenplum 新一代数据管理和数据分析解决方案数据访问: • 在一个系统中协调所有企业数据的位置 • 可以通过任何语言(SQL、M/R等)进行分析 14 强大并且不断扩展的合作伙伴网络 硬件供应商 商务智能工具 15 服务供应商 业内支持和认可 行业奖励 “ Greenplum能够让企业在两 个方面同时达到最满意的效果: 供程序员使用的MapReduce以 及供数据库管理使用的 SQL。” Monash Research 的Curt 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术(由Google普及)的产品 • 采用新的编程模型,在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 MapReduce Greenplum Greenplum MapReduce的优势 • 处理在任何地点存储的任何类型的数 据 • 将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 业务问题 • 改进定位广告0 码力 | 45 页 | 2.07 MB | 1 年前3 Greenplum 新一代数据管理和数据分析解决方案数据访问: • 在一个系统中协调所有企业数据的位置 • 可以通过任何语言(SQL、M/R等)进行分析 14 强大并且不断扩展的合作伙伴网络 硬件供应商 商务智能工具 15 服务供应商 业内支持和认可 行业奖励 “ Greenplum能够让企业在两 个方面同时达到最满意的效果: 供程序员使用的MapReduce以 及供数据库管理使用的 SQL。” Monash Research 的Curt 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术(由Google普及)的产品 • 采用新的编程模型,在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 MapReduce Greenplum Greenplum MapReduce的优势 • 处理在任何地点存储的任何类型的数 据 • 将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 业务问题 • 改进定位广告0 码力 | 45 页 | 2.07 MB | 1 年前3
 Greenplum 介绍高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的混合负载,从而帮助客户真正打通业务-数据-洞见-业务的闭环。 目前,Greenplum 已经为国内外各行各业客户所广泛使用,支撑着全球各大行业的核心生产系统, 要学 习新的数据库处理技术,人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台:支持各种数据源,包括 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 支持扩展(Extension)、自定义类型和函数、PXF 和外部表技术。可以使用多种语言实现用户自定义函数和聚集,包括 PL/Python、PL/R、 PL/Java、PL/Perl、PL/PGSQL 和 C 等。 ● 支持标准的平台:支持 SQL、JDBC 和 ODBC 等行业标准。经过半个多世纪的发展, SQL0 码力 | 3 页 | 220.42 KB | 1 年前3 Greenplum 介绍高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的混合负载,从而帮助客户真正打通业务-数据-洞见-业务的闭环。 目前,Greenplum 已经为国内外各行各业客户所广泛使用,支撑着全球各大行业的核心生产系统, 要学 习新的数据库处理技术,人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台:支持各种数据源,包括 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 支持扩展(Extension)、自定义类型和函数、PXF 和外部表技术。可以使用多种语言实现用户自定义函数和聚集,包括 PL/Python、PL/R、 PL/Java、PL/Perl、PL/PGSQL 和 C 等。 ● 支持标准的平台:支持 SQL、JDBC 和 ODBC 等行业标准。经过半个多世纪的发展, SQL0 码力 | 3 页 | 220.42 KB | 1 年前3
 Greenplum 精粹文集Big Date2.indd 1 16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单 判断的标准就是看看底下那个轮子有多少人使用,有多少人为它贡 献力量。 2) 为什么是 Postgresql Greenplum 精粹文集 5 1) PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法 支持,除对 ANSI SQL 完全支持外,还支持比如分析函数(SQL2003 OLAP window 函数),还可以用多种语言来写存储过程,对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远,很多分 析功能都不支持,而 Greenplum 作为 MPP 数据分析平台,这些功 能都是必不可少的。0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集Big Date2.indd 1 16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单 判断的标准就是看看底下那个轮子有多少人使用,有多少人为它贡 献力量。 2) 为什么是 Postgresql Greenplum 精粹文集 5 1) PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法 支持,除对 ANSI SQL 完全支持外,还支持比如分析函数(SQL2003 OLAP window 函数),还可以用多种语言来写存储过程,对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远,很多分 析功能都不支持,而 Greenplum 作为 MPP 数据分析平台,这些功 能都是必不可少的。0 码力 | 64 页 | 2.73 MB | 1 年前3
 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 .............................................................................................. 8 支持多种云不受限于基础架构的数据平台 .................................................................................. 近日,Greenplum 社区和欧拉开源社区深化合作,在欧拉开源操作系统(openEuler, 简称“欧拉”)编译测试了高级分 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点,0 码力 | 17 页 | 2.04 MB | 1 年前3 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 .............................................................................................. 8 支持多种云不受限于基础架构的数据平台 .................................................................................. 近日,Greenplum 社区和欧拉开源社区深化合作,在欧拉开源操作系统(openEuler, 简称“欧拉”)编译测试了高级分 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点,0 码力 | 17 页 | 2.04 MB | 1 年前3
 并行不悖- OLAP 在互联网公司的实践与思考轻量级数据仓库 —— Inforbright – 与MySQL数据库结合,易使用,冷热分离 – 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明 三 Greenplum体系架构 Ø 结果数据csv文件备份 Ø 结果数据到备份postgresql实例 28 Greenplum运维体系 数据库数据传输与同步 • 数据同步情况分类 Ø reader端与writer端 Ø 全量,id列增量,date列增量 Ø datax,csv,load,copy Ø 数据同步结果确认与显示 • 数据同步方式 Ø gpfdist+外部表 : UMGW大表 Ø db_sync同步程序 : 对于Greenplum上的架构和设计不断优化 Ø 继续建设多样化的postgresql数据集市,满足不同需求 • 优化现有业务的调度实现 Ø 时间周期的考量 Ø 并发与功能实现的权衡 Ø 增强任务可控性和可度量性 • 支持符合条件的新业务 Ø 抽象业务模型,整合使用分类 Ø 简化上线模型,优化上线方式 40 Greenplum扩展规划 新业务上线流程 • 把握三个方面,解决三个问题 Ø 确认数据来源与传输,解决原始数据从那里来的问题0 码力 | 43 页 | 9.66 MB | 1 年前3 并行不悖- OLAP 在互联网公司的实践与思考轻量级数据仓库 —— Inforbright – 与MySQL数据库结合,易使用,冷热分离 – 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明 三 Greenplum体系架构 Ø 结果数据csv文件备份 Ø 结果数据到备份postgresql实例 28 Greenplum运维体系 数据库数据传输与同步 • 数据同步情况分类 Ø reader端与writer端 Ø 全量,id列增量,date列增量 Ø datax,csv,load,copy Ø 数据同步结果确认与显示 • 数据同步方式 Ø gpfdist+外部表 : UMGW大表 Ø db_sync同步程序 : 对于Greenplum上的架构和设计不断优化 Ø 继续建设多样化的postgresql数据集市,满足不同需求 • 优化现有业务的调度实现 Ø 时间周期的考量 Ø 并发与功能实现的权衡 Ø 增强任务可控性和可度量性 • 支持符合条件的新业务 Ø 抽象业务模型,整合使用分类 Ø 简化上线模型,优化上线方式 40 Greenplum扩展规划 新业务上线流程 • 把握三个方面,解决三个问题 Ø 确认数据来源与传输,解决原始数据从那里来的问题0 码力 | 43 页 | 9.66 MB | 1 年前3
 Greenplum机器学习⼯具集和案例tore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 Spark: 不不同的产品,侧重点不不同 MADlib Spark 算法库 易用性 需要编程 查询优化 成熟度稍差 内存和流处理 通过 Gemfire SQL 语法支持 需要提升 磁盘数据 不是核心焦点 并发性能 不是核心焦点 大数据关联 不是核心焦点 2017.thegiac.com ⽤用户案例例 1 Greenplum + 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公 司 ● 简化Data 流程 ● 在Madlib上重新建 模和预测 ● 实现流程全⾃自动化 背景 2017.thegiac.com 数据源 • 客户数据 - 购买 - 预定 - 营销 - 在线注册 - ⽹网⻚页浏览历史 - 地理理信息数据0 码力 | 58 页 | 1.97 MB | 1 年前3 Greenplum机器学习⼯具集和案例tore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 Spark: 不不同的产品,侧重点不不同 MADlib Spark 算法库 易用性 需要编程 查询优化 成熟度稍差 内存和流处理 通过 Gemfire SQL 语法支持 需要提升 磁盘数据 不是核心焦点 并发性能 不是核心焦点 大数据关联 不是核心焦点 2017.thegiac.com ⽤用户案例例 1 Greenplum + 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公 司 ● 简化Data 流程 ● 在Madlib上重新建 模和预测 ● 实现流程全⾃自动化 背景 2017.thegiac.com 数据源 • 客户数据 - 购买 - 预定 - 营销 - 在线注册 - ⽹网⻚页浏览历史 - 地理理信息数据0 码力 | 58 页 | 1.97 MB | 1 年前3
共 22 条
- 1
- 2
- 3













