过程 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum机器学习⼯具集和案例

企业级稳定性，成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X：各种语言实现自定义函数（存储过程） • MADLib: 数据挖掘、统计分析、图（Graph）等算法 • GPText：文本检索和分析 • GeoSpatial：地理信息数据分析 • Image: 图像数据分析 Greenplum MADlib 特性 2017.thegiac.com 客户端数据库服务器器 Master Segment 1 Segment 2 Segment n … SQL 存储过程结果集 String 聚集 psql … 执⾏行行流程 2017.thegiac.com External Sources Load, streaming, K-means聚类处理理主题模型对主题进⾏行行K- means聚类 S 标记回话⼈人⼯工审查新会话建模过程 2017.thegiac.com 会话识别 API 请求⽇日志对API请求结合超时和 K-means聚类处理理建模过程 2017.thegiac.com 对API请求进⾏行行会话化会话1 会话2 会话3 时间会话1

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum 精粹文集

PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法支持，除对 ANSI SQL 完全支持外，还支持比如分析函数（SQL2003 OLAP window 函数），还可以用多种语言来写存储过程，对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远，很多分析功能都不支持，而 Greenplum 作为 MPP 数据分析平台，这些功能都是必不可少的。 2) Mysql MapReduce 是反潮流的），数据处理过程分成 Map-〉 Shuffle-〉Reduce 的过程，相比 MPP 数据库并行计算而言， Mapreduce 的数据在计算前未经整理和组织（只是做了简单数据分块，数据无模式），而 MPP 预先会把数据有效的组织（有模式），例如：行列表关系、Hash 分布、索引、分区、列存储等、统计信息收集等，这就决定了在计算过程中效率大为不同： ·MAP 效率对比效率对比 Hadoop 的 MAP 阶段需要对数据再解析，而 MPP 数据库则会直接取行列表，效率高。 Hadoop 按 64MB 拆分文件，而且数据不能保证在所有节点都均匀分布，因此，MAP 过程的并行化程度低；MPP 数据库按照数据记录拆分和 Hash 分布，粒度更细，数据分布在所有节点中非常均匀，并行化程度很高。 HadoopHDFS 没有灵活的索引、分区、列存储等技术支持，而 MPP

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

本更新和迭代，编者也有了更多的感悟，放眼 GP 的中文资料，为之动容，就想着再为 GP 的发展壮大多做那么一点点贡献，挤出一点时间，重新梳理和打磨这个文档，并完全根据最新的版本特性进行重新整理，希望能对中文爱好者提供一些帮助，在编写过程中，仍会参考官方文档，但绝不是简单的翻译，甚至有些内容会与官方文档不一致。编者提醒，升级版本极其重要，4 版本早该淘汰了，5 版本和 6 版本都带来了极大的性能和稳定性的提升。册有出入，仅代表编者本人观点，与官方手册无关。本书中可能会提及一些非官方的命令和工具等，仅用于讲解相关知识，如有缺失相关细节的情况，请谅解。致读者如果您在阅读和参考本书的过程中发现有任何不妥之处，或者有任何的建议和意见，欢迎联系编者，本书主要针对 GP 数据库的爱好者进行编写，包括产品的安装和使用说明，以及最佳实践等内容。本书的发布更新情况与编者的时间有关，不做承诺。 ........................ - 309 - 6 版本故障切换的恢复过程 .................................................................................. - 311 - 6 之前版本故障切换的恢复过程 ............................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 6新特性: 在线扩容工具GPexpand剖析

新节点以Master为模板生成，只包含catalog，没有数据改进与实现 • 问题 – 生成模板的过程中，如果catalog被修改怎么保证一致性改进与实现 • 问题 – 生成模板的过程中，如果catalog被修改怎么保证一致性 ▪ 新增catalog锁 ▪ select gp_expand_lock_catalog() ▪ expand过程中申请写锁 ▪ 其他修改catalog操作时也会申请锁来实现与expand的互斥改进与实现 • 减少重分布数据移动量 – Jump Consistent Hash ▪ 均匀性：通过概率做到均匀分布 ▪ 稳定性：在相同集群大小下，同一个Tuple每次计算结果相同 ▪ 单调性：扩容过程中，旧节点之间没有数据迁移 ▪ 高效性：对于集群大小为N的时候，时间复杂度为Log(N) – 更多算法细节请参考链接。https://arxiv.org/pdf/1406.2294.pdf – 通过GUC

0 码力 | 37 页 | 1.12 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量，不同事务特点，不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— 数据库数据传输与同步-db_sync 31 Greenplum运维体系 Greenplum任务调度 • greenplum内部存储过程调度 Ø大批量任务采用 kettle调度 Ø单个存储过程，可以在shell中 select func_name() 的方式调度 • 外部任务调度 Ø将整个过程封装成shell脚本，或 Python脚本 Ø用crontab在操作系统调用脚本 Ø用 opencron在图形界面调用脚本

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 编译安装和调试

等Linux系统。大量开发人员包括我自己使用Mac系统，但是不在官方支持列表中。 1.1 在 Mac 系统上编译首先需要关闭苹果操作系统的 SIP 特性，否则无法初始化集群。 1. 重启操作系统 2. 重启过程中按下 command+R 进入恢复模式 3. 从 Utilities 菜单选择 Terminal 4. 执行 csrutil disable 5. 重启操作系统 // 安装Greenplum管理脚本依赖的问题很有效。 ● 在合适的代码处启用 Python 调试器，如果不知道什么地方合适，则在入口处。 3. Greenplum SQL执行流程概要下面介绍下 Greenplum 中 SQL 执行的简单过程。例子中集群一个 Master 两个 Segments。准备简单的数据： CREATE TABLE students (id int, name text) DISTRIBUTED 1), (2, 'math', 2), (3, 'physics', 3); 以下面的SQL为例子，了解 SQL 在 Greenplum 中的执行过程： SELECT s.name student_name, c.classname FROM students s, classes c WHERE s.id=c

0 码力 | 15 页 | 2.07 MB | 1 年前
3
Greenplum 架构概览

在项⽬初期，我们使⽤⼀张表 T 存储数据。随着业务的增多，单表出现性能瓶颈，因⽽将 T ⽔平拆分成多个表进⾏存储，这个过程通常称为分区。紧接着，单⼀的数据库实例出现瓶颈，因此需要使⽤多个节点创建多个数据库实例，再按照某种规则将数据尽可能均匀地分布到各个节点上，这个过程通常称之为分⽚ GP 同时⽀持数据的分⽚和分区，具体的分⽚和分区规则将会在后⾯的总结中详述同时，GP 在存储写⼊。也就是说，每当有⼀个客户端连接⾄ PG 时，就会有⼀个⼦进程被创建出来。postmaster 进程和 postgres 进程之间采⽤共享内存进⾏通信 client 和 PG 之间的通信过程 client 调⽤ libpq 库向 PG 的 Postmaster 进程发起连接请求 PG fork 出⼀个 postgres 进程与该客户端建⽴连接，postmaster 进程不再处理与该客户端的相关请求

0 码力 | 1 页 | 734.79 KB | 1 年前
3
PostgreSQL和Greenplum 数据库故障排查

gp-seg3 Primary segment Primary segment Mirror segment mirror segment standby master gp-seg4X 手动宕机恢复过程（恢复segment） 2018年PostgreSQL中国技术大会 2018年PostgreSQL中国技术大会 2018年PostgreSQL中国技术大会 2018年PostgreSQL中国技术大会 2018年PostgreSQL中国技术大会 gprecoverseg -r 2018年PostgreSQL中国技术大会 Standby master自动恢复 2018年PostgreSQL中国技术大会删除文件恢复过程 2018年PostgreSQL中国技术大会微信号：laohouzi999 Primary segment（gpseg6删除部分文件） Primary segment（gpseg7删除目录） 2018年PostgreSQL中国技术大会 2018年PostgreSQL中国技术大会 2018年PostgreSQL中国技术大会 2018年PostgreSQL中国技术大会 Standby master的恢复过程 2018年PostgreSQL中国技术大会 2018年PostgreSQL中国技术大会 standby意外宕机，重启后不能自动恢复 2018年PostgreSQL中国技术大会 2018年PostgreSQL中国技术大会

0 码力 | 84 页 | 12.61 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

GREENPLUM 5：新一代数据平台在 Greenplum 5 中，Workload Manager 的功能有所增强，提高了规则创建的可自定义程度，并改进了监控查询活动及其所用资源的方式。它可在查询运行过程中监控并检测内存、CPU 和磁盘 I/O 偏差。随后，Workload Manager 会在查询使用的某项资源超过已定义阈值时记录日志，并可根据规则定义在必要时终止超过规定资源限额的查询。规则可按一天中的询）可使用来自外部查询的值。鉴于业界各大 BI/ 报告工具对子查询的广泛使用，这可以说是 GPORCA 中最重要的一项改进了。在一些大型数据集中，对于外部查询所处理的每一行，系统都要对子查询进行一次计算，因此执行过程可能极为漫长。 GPORCA 的架构设计使其能够以高效得多的方式处理此类复杂查询，因为它可以去除不必要的嵌套，通过提出子查询谓词来取消子查询的关联，并将子查询转换为更高效的表连接。5 另一个有所改进的部分是公共表表达式 PostgreSQL 实施来收集表统计数据，从而针对堆积优化表和附加优化表提高其性能。系统会在单个查询中收集行示例，并在内存中执行每列统计数据的计算。而在过去，则会针对每列运行单独的查询。在分析操作执行过程中，不会再创建用于保存示例的表。这些改进可以针对涉及大型表的查询生成更好的总体统计数据，并大幅提高对数据库中较小的表运行 ANALYZE 的效率。 5. https://content.pivotal

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

2012-2021 UCloud 优刻得 41/206 操作指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 42/206 数据仓库扩容过程中需要对数据进⾏重分布，因此，扩容完成的时间根据数据量的⼤⼩⽽不同。⽬前，暂时不⽀持数据仓库的缩容。更改数据仓库密码更改数据仓库密码操作指南 Greenplum数据仓库 UDW Copyright Workbench/J是⼀个独⽴于DBMS，跨平台的SQL查询分析⼯具。具有通⽤性好、⼩巧、免安装等优点，并且功能强⼤，查询编辑器⽀持⾃动补全，Database Explorer可以查看和编辑各种数据库对象（表、视图、存储过程等）。详情可⻅：SQL Workbench/J 访问 udw 访问UDW数据仓库 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 72/206 JAVA_HOME 环境变量。接⼊第三⽅ BI ⼯具 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 152/206 以CentOS为例，具体操作过程如下： a) 下载JDK安装包(jdk-7u79-linux-x64.tar.gz),下载地址为： http://www.oracle.com/technetwork/cn/java/javas

0 码力 | 206 页 | 5.35 MB | 1 年前
3

共 19 条前往

页

分类

语言

格式

Greenplum机器学习⼯具集和案例

Greenplum 精粹文集

Greenplum Database 管理员指南 6.2.1

Greenplum 6新特性: 在线扩容工具GPexpand剖析

并行不悖- OLAP 在互联网公司的实践与思考

Greenplum 编译安装和调试

Greenplum 架构概览

PostgreSQL和Greenplum 数据库故障排查

Pivotal Greenplum 5：新一代数据平台

Greenplum数据仓库UDW - UCloud中立云计算服务商