Greenplum机器学习⼯具集和案例各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 新会话 建模过程 对API请求结合超时和 K-means聚集处理理 验证聚 类结果 2017.thegiac.com 主题分布热⼒力力图检测异常 2017.thegiac.com 股票分析师 固定收益分析师 客户行为热图 建模效果示例例 2017.thegiac.com 改良前 改良后 X 在R上对data sample进⾏行行分析, DCA闲置0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 精粹文集nect 并行调度 + 分布式事务两阶段提交”, Greenplum 还研发了非常多的高级数据分析管理功能和企业级管理模 块,如下这些功能都是 Postgresql 没有提供的: ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror Greenplum 功能设计的方方 面面: 外部表数据加载是并行的、 查询计划执行是并行的、索 引的建立和使用是并行的, 统计信息收集是并行的、表 关联(包括其中的重分布或 广播及关联计算)是并行的,排序和分组聚合都是并行的,备份恢复 也是并行的,甚而数据库启停和元数据检查等维护工具也按照并行方 式来设计。得益于这种无所不在的并行,Greenplum 在数据加载和数 据计算中表现出强悍的性能,某行业客户对此深有体会 深有体会 : 同样 2TB 左 右的数据,在 Greenplum 中不到一个小时就加载完成了,而在用户传 统数据仓库平台上耗时半天以上。 在该用户的生产环境中,1 个数百亿表和 2 个 10 多亿条记录表的全表 关联中(只有 on 关联条件,不带 where 过滤条件,其中一个 10 亿 条的表计算中需要重分布),Greenplum 仅耗时数分钟就完成了, 当其它传统数据平台还在为千万级或亿级规模的表关联性能发愁时,0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商客⼾端⼯具访问UDW 2 图形界⾯的⽅式访问UDW 数据导⼊ 数据导⼊ insert加载数据 copy加载数据 外部表并⾏加载数据 从hdfs加载数据 从mysql中导⼊数据 从oracle中导⼊数据 从ufile加载数据 开发指南 开发指南 1、连接数据库 2、数据库管理 3、模式管理 4、表格设计 5、加载数据 6、分区表 7、序列 8、索引 9、 ANALYZE/VACUUM 选择数据仓库类型:Greenplum 是 EMC 开源的数据仓库产品、Udpg 是基于 PostgreSQL 开发的⼤规模并⾏、完全托管的 PB 级数据仓库服务。 选择节点个数:UDW 是分布式架构、所有节点数据都是双机热备,实际可⽤总容量略⼩于节点个数*节点磁盘⼤⼩/2,请根据实际数据⼤⼩选择合适的节点。 3.设置数据仓库信息 必选项有数据仓库名称、DB管理员⽤⼾名、管理员密码。可选项有默认DB,默认DB的名称为 ⼆、连接数据仓库 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 16/206 如上图所⽰客⼾端访问管理,提供了客⼾端下载和数据加载⼯具和⽂档的下载。 JDBC连接 连接 Linux操作系统 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 17/206 yum0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1....................................................................................... - 381 - 数据加载 .................................................................................................. ldapport=1389 ldapprefix="cn=" ldapsuffix=",ou=People,dc=company,dc=com" 3. 保存并关闭文件。 4. 重新加载 pg_hba.conf 文件从而使得刚刚的修改生效。例如: $ gpstop –u 注意:pg_hba.conf 文件中的记录是顺序匹配的,当某个登录被前面的记录匹配了, 将不会 3. 双击需要修改的参数打开一个参数设置对话框。 4. 输入参数的新值。修改好之后点击[确定]按钮保存修改,或者点击[取消]按钮放 弃修改。 5. 如果修改的参数可以通过重新加载配置的方式生效,点击左上角的绿色箭头来完成。 有些参数的修改是需要重启数据库(不是gpstop -u)才能生效的。 查看执行计划 使用pgAdminIII工具,可以通过执行EXPLAIN命令查看执行计划。输出内容包0 码力 | 416 页 | 6.08 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考– 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 海量并行处理+完全无共享 Ø cpu计算能力 Ø 数据从Disk上的I/O吞吐性能 Ø master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载 (gpfdist+外部表,每小时4TB+) Ø 分布分区 Ø 数据压缩 Ø 外部访问 15 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 Ø 规划部署方案 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系 环境创建与部署 • 部署注意点 Ø 资源要充足(ETL,管理节点,数据节点,数据集市) Ø 万兆网络 (网络环境对功能和性能的影响)0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案SQL2A和 SQL2B 报表二: 查询09年5月份数 32秒 N 同上 复杂查询 本项测试的目的是通过SQL查询检验Greenplum数据库引擎处理Query计算的响应 速度。 测试方法:针对数据加载测试中的三张大表,模拟生产业务需求进行复杂SQL语句查 询(参看附录)。 测试结果如下面两表: 语句名 Oracle查 询时长 Greenplu m查询时 长 GP提升倍数 备注 SQL1 1800秒+ Interconnect - Gigabit Ethernet Switch 核心系统文件加载测试结果 本次加载测试采用2009年1月4号和2009年1月5号核心系统文件数据,GP加载耗时与 ORACLE系统加载耗时比较如下: 文件名 文件描述 ORACLE GREENPLUM GP提升 倍数 Staging 加载时间 文 件 大 小 记录条数 Staging 加 载 时 间 文 件0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 任务管理 服务 加载 & 数据联邦 高速数据加载 近实时数据加载 任意系统数据访问 存储 & 数据访问 混合存储引擎(行存&列存) 多种压缩,多级分区表 索引(B树,位图,GiST) 安全性 语言支持 标准SQL支持,SQL 8月 用户自定义数据存储格式 14 Pivotal Confidential–Inter nal Use Only 大规模并行数据加载 • 高速数据导入和导出 – 主节点不是瓶颈 – 10+ TB/小时/Rack – 线性扩展 • 低延迟 – 加载后立刻可用 – 不需要中间存储 – 不需要额外数据处理 • 导入/导出 到&从: – 文件系统 – 任意 ETL 产品 – Hadoop0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 介绍要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台:0 码力 | 3 页 | 220.42 KB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台其他数据库 SQL ML/统计数据/图形 程序化 文本 地理空间 公有云 私有云 完全 托管云 本地 BI / 报告 自定义应用 机器学习 AI SQL 大规模 并行处理 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload Manager 多态存储 Command Center SQL 兼容性 (Hyper-Q) PostgreSQL 内核 JSON、Apache 总 体产品方向产生影响,而这又会加快产品创新。 客户能够在群集中的一组初始服务器上部署 Pivotal Greenplum,并能在数据存储和用户需求增加时扩充配置中的服务器数 量,且无需卸载再重新加载数据。随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Pivotal Greenplum 目前可在 Amazon Web Services、Microsoft Azure 和0 码力 | 9 页 | 690.33 KB | 1 年前3
Pivotal Greenplum 最佳实践分享表关联时,一般不需要建索引,如果where条件的筛选性很强,建立索引可以让系统性能提升 • 对于大数据类系统,应避免使用PK,UI,FK,唯一性约束或参考性检查将导致性能大幅下降; • 大数量更新时,应先删除索引,更新/加载数据后再重建索引,或者采用分区交换降低对目标表的影响 临时空间的监控和管理 临时空间被无限制使用,可能导致系统空间撑爆,为了避免这种情况,建议设置以下参数 – gp_workfile_compress_algorithm -m:只停止master实例,与gpstart –m对应使用 -M fast | -f:停止数据库,中断所有数据库连接,回滚正在运行的事务 -u:不停止数据库,只加载pg_hba.conf 和postgresql.conf 中运行时参数,当改动参数配置时候使用。 -r: 重启数据库 Admin常用命令 查看实例配置和状态 select0 码力 | 41 页 | 1.42 MB | 1 年前3
共 13 条
- 1
- 2













