Greenplum资源管理器2017 年象行中国(杭州 站)第一期 Greenplum资源管理器 姚珂男/Pivotal kyao@pivotal.io 2017 年象行中国(杭州 站)第一期 Agenda • Greenplum数据库 • Resource Queue • Resource Group 2017 年象行中国(杭州 站)第一期 Greenplum数据库 • 基于PostgreSQL • 分布式 corruption => PANIC 2017 年象行中国(杭州 站)第一期 Resource Queue • Cost is tricky – 没有明确的定义 – 不同优化器不一致 – 优化器不能被纳入资源管理器 2017 年象行中国(杭州 站)第一期 Resource Queue • Priority is rough – 不能精确控制CPU – CHECK_FOR_INTERRUPTS – Resource Queue • Memory – Chaotic – 没有严格资源隔离 – 第三方库的malloc 2017 年象行中国(杭州 站)第一期 Resource Group • SQL语句并发控制 => 事务并发控制 • 基于cost的并发控制 • 基于优先级的CPU控制 => 精确CPU比例 • 内存控制 => 严格资源隔离 2017 年象行中国(杭州 站)第一期 Running Example0 码力 | 21 页 | 756.29 KB | 1 年前3
Greenplum机器学习⼯具集和案例com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: 新一代开源大数据平台 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure Language PLPython, PLR 2017.thegiac.com PL/Python0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 精粹文集车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror 镜像保护机制 ·资源队列管理 ·WEB/Brower 监控 Big Date2.indd 7 16-11-22 下午3:38 8 3. Greenplum 的艺术 -- Parallel Everything 都运转起来,无共享架构将这种并行处理发挥到极致。 相比一些其它传统数据仓库的 Sharedisk 架构,后者最大瓶颈就是在 IO 吞吐上,在大规模数据处理时,IO 无法及时 feed 数据给到 CPU, CPU 资源处于 wait 空转状态,无法充分利用系统资源,导致 SQL 效 率低下: 一台内置 16 块 SAS 盘的 X86 服务器,每秒的 IO 数据扫描性能约在 2000MB/s 左右,可以想象,20 台这样的服务器构成的机群0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1.................... - 45 - 第六章:资源管理 .................................................................................................................... - 46 - 使用资源组................................ ........................................ - 46 - 资源组基于角色或基于外部组件 ............................................................................ - 47 - 资源组的属性 ............................................ ........................... - 48 - 配置与使用资源组 .................................................................................................... - 57 - 监控资源组状态 ......................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台.......................................................................................7 Greenplum资源组和Workload Manager ................................................................................ Apache SOLR PostGIS ANSI SQL 其他数据库 SQL ML/统计数据/图形 程序化 文本 地理空间 公有云 私有云 完全 托管云 本地 BI / 报告 自定义应用 机器学习 AI SQL 大规模 并行处理 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload Manager 多态存储 Command Center SQL 兼容性 (Hyper-Q) rpart、sandwich、scales、stringi、stringr、survival、tibble、tseries 和 zoo。 此外,Greenplum 5 还支持最新版 Apache MADlib(可用 SQL 进行机器学习和图分析),支持在 Apache Solr 数据库内实 施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接受 来自支持的 Solr 查询0 码力 | 9 页 | 690.33 KB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum、优异性能、环境适应性强在 MPP 数据库领域独占鳌头,基于 Shared Nothing 的 MPP 高性能系统架构,Greenplum 可以将 PB 级的数据仓库负 载分解,并使用所有的系统资源并行处理单个查询。同时 Greenplum 具备数据库 ACID 特性,运行符合 ANSI 标准 的 SQL,可以让服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚 Rcpp、RcppEigen、RobustRankAggreg 等 R 语言算法库和程序包。 此外,Greenplum 还支持最新版 Apache MADlib(可用 SQL 进行机器学习、深度学习和图分析),它支持高并行 和基于 GPU 的深度学习模型训练,内置于集群硬件中的 GPU,能帮助 Greenplum 6 的用户获得超过 CPU 2 个数量 级的性能加速,尤其对于可预测的分析用例和图像识别,这些功能将展现奇效。支持在 版本做了功能性验证和测试,测试结论如下: GreenplumDB 6.17.0 版本本次测试,共计执行回归用例 930 个,其中核心数据库引擎用例 534 个,隔离级别用例 240 个,失败 1 个(疑似虚机资源问题)。其它功能测试若干,手动验证用例 2 个(SSL 工具版本问题),管理工具脚 本用例 455 个。整体质量良好。 测试活动 tempest 集成测试 核心引擎 全部 534 用例通过0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台Pivotal Confidential–Internal Use Only 卓越的OLAP特性 列式存储 分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储 OLTP数据库 OLAP数据仓库 ■ 实时性 ■ 数据同步复杂性 ■ 应用复杂性 HTAP HTAP = ? ■ 卓越的OLAP特性 ■ 出色的OLTP特性 ■ 多态存储 ■ 有效的并发和资源管理 OLTP-OLAP独立部署 OLTP数据库 OLAP数据仓库 ■ 实时性 ■ 数据同步复杂性 ■ 应用复杂性 43 Pivotal Confidential–Internal Use 9月 8月 用户自定义数据存储格式 并发管理 ■ pgbouncer ■ 资源组(resource group) create resource group rg1 (cpu_rate_limit=20, memory_limit=10, concurrency=5) 资源管理:CPU使用受限和超限 资源管理:CPU,短查询延迟 ■ 更稳定延迟,CPUSET特性:create resource0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum 介绍还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 支持扩展(Extension)、自定义类型和函数、PXF 和外部表技术。可以使用多种语言实现用户自定义函数和聚集,包括 PL/Python、PL/R、 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL 接口进行数据分析,大大降低了数据分 析的门槛;MADlib 内建于数据库内,使用 MPP 的优势,提高了分析的效率;MADlib 可 以在全量数据而不是抽样数据上进行分析,提高了精度。0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商数据仓库服务。UDW可以通过SQL让数据分析更简 单、⾼效,为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务分析能⼒。⽀持MADlib扩展,客⼾可以在udw上使⽤MADlib的扩展功能,从⽽让机器学习变得简单,⽀持PostGIS,可以⽅便 的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。 云数据仓库产品架构 云数据仓库产品架构 云数据库仓库 UDW 服务的架构图如下所⽰: 接收客⼾端的连接请求 负责权限认证 处理 SQL 命令 调度分发执⾏计划 汇总 Segment 的执⾏结果并将结果返回给客⼾端 3. Compute Node: Compute Node 管理节点的计算和存储资源 每个 Compute Node 由多个 Segment 组成 Segment 负责业务数据的存储、⽤⼾ SQL 的执⾏ ⾼可⽤ ⾼可⽤ 产品架构 Greenplum数据仓库 UDW Copyright0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum 编译安装和调试常用的调试器gdb/lldb虽然简单易用、功能也很强大,但是不直观。很多集成开发环境(IDE)提 供了非常直观、强大、易用的调试环境,包括 clion、eclipse、xcode 等。IDE 对于学习 Greenplum 代码也非常有帮助,可以大大提高效率。 下面简单介绍如何使用 clion 图形化用户界面调试 Greenplum 代码。(Eclipse、VisualCode具有 类似功能) students 语句,可以使用各种调试命令(例如单步执行、断点、跳 出函数等)方便的调试代码。 如上图所示,可以通过 IDE 很直观的看到正在执行的代码片段,以及函数中变量的值。对于学习 和调试Greenplum非常有帮助。 5. 问题讨论 如果遇到问题无法解决,优先建议到 gpdb-dev 邮件列表讨论,或者在github上面报告Issues (https://github0 码力 | 15 页 | 2.07 MB | 1 年前3
共 21 条
- 1
- 2
- 3













