Greenplum机器学习⼯具集和案例数据库服务器器 Master Segment 1 Segment 2 Segment n … SQL 存储过程 结果集 String 聚集 psql … 执⾏行行流程 2017.thegiac.com External Sources Load, streaming, etc. Network Interconnect ... . 邮件⼴广告点击预测 模型不不够精准,需 要更更好的邮件营销 策略略 ● 现有数据分析流程 繁琐,速度慢,有 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公 司 ● 简化Data 流程 ● 在Madlib上重新建 模和预测 ● 实现流程全⾃自动化 背景 2017.thegiac.com 数据源 • 客户数据 - 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 特征⽣生成 验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 逻辑回归 Elastic Net 特征选择 模型 1 2 3 4 5 6 改进后的 in-database 流程 2017.thegiac.com 数据编辑/整理理0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1的自动 FailOver 效果,编者也实现了自动 切换命令,当 Master 出现无法正常工作的故障时,自动激活 Standby 来接管 Master 的任务。下面的流程图,是编者实现的 Master 和 Standby 自动切换的逻辑流程图, 可以供读者参考,不过,编者不方便公开实现的代码。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 实现,GP的Primary和gpfdist服务之间直接通过网络高速并行数据传输。 gpload命令,通过YML格式文件进行参数控制,通过对gpfdist命令和外部表的 包装(只是包装),具备一定程度的自动化,实现将文件数据导入到GP数据库中。 实际上,编者从未真正使用过gpload命令,因为直接使用外部表更灵活,过于追 求傻瓜式,并不利于问题的发现和解决,编者不会介绍gpload命令。 如何初始化一套符合各种安全和指 标要求的GP数据库集群。 对于安装好操作系统,配置好网络之后的操作,本章节主要是为了解说相关的知识, 编者不再使用这种纯手工的方法,因为效率太低,编者有一个自动化脚本来完成这些重 复且容易出错的工作,目前仅在编者为客户提供实施时使用,暂不公开传播。 硬件选型 GP是一个分布式数据库软件,整体数据库的性能依赖于硬件的性能和各种硬件资 源0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 GreenplumGreenplum 7 将实现 Master 的自动 Failover,当 Coordinator(Master),如果 Coordinator(Master)出现故障, 将自动把备用节点进行替换,把这一流程自动化,减少人工的干预,这一功能不但将解决现有用户的使用痛点,同时 也大大增加了系统高可用性,避免手工操作,极大方便了系统运维,而这对于运行关键业务应用十分重要。 完全兼容欧拉开源操作系统的 ARM 平台的功能完整性。期待 Greenplum 中文社区能够在 openEuler 社区中有更多更深入的投入,为客户的成功共同努力。 本着开源精神,本次合作和贡献完全遵守双方开源社区流程进行,以社区讨论和提交 PR 的方式成功运作。合作参与 方为 Greenplum 中文社区开发者和 openEuler DB SIG。下面对工作内容做简要的介绍: 1. Greenplum0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum on Kubernetes
容器化MPP数据库半结构化/无模式 ○ 数据隔离 → 数据共享 ● 云数据库市场巨大 ● 云数据库增速巨大 ● DBasS的需求 ● 跨云的需求 云数据库实现方案 云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云 云数据库实现方案0 码力 | 33 页 | 1.93 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密深度揭秘Greenplum开源数据库 透明加密 Greenplum 研发工程师 王淏舟 1. 我们所面临的问题 2. 基于pgcypto的数据加密方案 3. GPDB数据透明加密方案设计 4. GPDB数据透明加解密流程 5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 binary) Executeor 现有解决方案 GPDB查询执行流程 Query Planer Data (plain) 现有解决方案 GPDB查询执行流程 Query Planer Executeor Data (plain) Index pruning optimizing 现有解决方案 GPDB查询执行流程 Query Results Planer Executeor pgcypto加密流程 key Data (Encrypted) pgcypto Data (plain) 临时数据 现有解决方案 pgcypto加密流程 Planer Executeor key Data (Encrypted) pgcypto Data (plain) Data (Encrypted) 临时数据 现有解决方案 pgcypto解密流程 Query Planer0 码力 | 48 页 | 10.19 MB | 1 年前3
Greenplum 精粹文集16-11-22 下午3:38 Greenplum 精粹文集 15 2) 功能上的对比 MPP 数据库采用 SQL 作为主要交互式语言,SQL 语言简单易学, 具有很强数据操纵能力和过程语言的流程控制能力,SQL 语言是专 门为统计和数据分析开发的语言,各种功能和函数琳琅满目,SQL 语言不仅适合开发人员,也适用于分析业务人员,大幅简化了数据 的操作和交互过程。 而对 MapReduce 编程明显是困难的,在原生的 Protegrity 可提供一组在专门的转型流程中加密数据的功能。启用功能 之后,物理数据将会采用新的格式保存在磁盘上以满足静态数据的加 密要求。解密数据、确定用户是否可以访问全部或者部分的数据也是 采用一个相似的流程。 此功能通过在加密之前捕获用户信息并将凭证传递至安装在所有 Greenplum 节点上的本地 Protegrity 代理完成加密流程。此流程与维 护、存取和应用策略 (Policy) 问的数据。它将取部分数据检查用户是否具有访问权限,然后 PEP 代 理将对数据运行加密或解密并返回数值。 除了在数据库中执行此功能以外,Protegrity 还提供一些工具来加密 数据库外的数据。这应作为 ETL 流程的一部分,在数据加载到 Pivotal Greenplum 之前转换数据,通过在摄取数据的时候消除解密动态数据 的需求来加快提取数据的速度。 3. 在 Pivotal Greenplum 中设置0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 架构概览在后⾯的总结中详述 同时,GP 在存储上⽀持多态存储,也就是对于同⼀份数据,既可以选择基于⾏的存储⽅式,也可以选择基于列的存储⽅式,并且⽀持诸如 S3、HDFS 等外部存储 GP 基本查询流程 PostgreSQL 进程模型 PostgreSQL(以下简称 PG)采⽤的是经典的 C/S 模型,即 Client-Server 模型,同时使⽤多进程的⽅式⽀持并发查询与写⼊。也就是说, postgres 进程与该客户端建⽴连接,postmaster 进程不再处理与该客户端的相关请求 postgres 进程接收客户端的请求,处理并返回结果。当然,响应需要经过 libpq 库的处理 基本查询流程 Query Dispatcher 当 client 向 Master 发起查询请求时,Master 节点上的 postmaster 进程将会 fork 出⼀个⼦进程,叫做 Query Dispatcher(分发0 码力 | 1 页 | 734.79 KB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 22 Greenplum运维体系 环境创建与部署 • 部署流程 Ø 规划部署方案 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 并发与功能实现的权衡 Ø 增强任务可控性和可度量性 • 支持符合条件的新业务 Ø 抽象业务模型,整合使用分类 Ø 简化上线模型,优化上线方式 40 Greenplum扩展规划 新业务上线流程 • 把握三个方面,解决三个问题 Ø 确认数据来源与传输,解决原始数据从那里来的问题 Ø 确认数据如何计算,解决数据存储和计算加工的问题 Ø 确认数据集市状态,解决结果数据最终展示的问题 • 实现方式0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享 Greenplum 数据库(GPDB)简介 Greenplum 数据库(GPDB)架构 Greenplum 数据库(GPDB)组件 Greenplum 数据库(GPDB)执行流程 Greenplum 数据库(GPDB)5.x 3 Pivotal Confidential–Inter nal Use Only 3 © Copyright 2013 Pivotal. All Pivotal Confidential–Inter nal Use Only 23 © Copyright 2013 Pivotal. All rights reserved. Greenplum 执行流程 24 Pivotal Confidential–Inter nal Use Only 25 Pivotal Confidential–Inter nal Use Only 26 Pivotal0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 6新特性:
在线扩容工具GPexpand剖析n下面,和其 他辅助工具,如gpstart,gpstop,gpactivatestandby一样,是一个 用python写的命令行脚本。 GPExpand简介与具体用法 • GPExpand工作流程 – 建立并添加新节点 – 数据重分布 GPExpand简介与具体用法 • 增加新节点 – gpexpand –i 配置文件 • 数据重分布 – gpexpand • 清理 – gpexpand0 码力 | 37 页 | 1.12 MB | 1 年前3
共 12 条
- 1
- 2













