Greenplum 编译安装和调试Greenplum 编译安装和调试 本文先介绍如何从源代码编译安装Greenplum、初始化Greenplum集群。然后介绍SQL在 Greenplum中的典型执行路径,最后介绍一些调试技巧。 源代码使用 Greenplum 开源社区最新源代码 6X_STABLE 分支: https://github.com/greenplum-db/gpdb,内核代码基于 PostgreSQL disable 5. 重启操作系统 // 安装Greenplum管理脚本依赖的 Python 包 $ wget https://bootstrap.pypa.io/get-pip.py $ sudo python get-pip.py $ sudo pip install psutil lockfile paramiko setuptools epydoc // 需要安装 openssl,否则无法编译 首先下载 Greenplum 源代码 $ git clone https://github.com/greenplum-db/gpdb Greenplum Database 编译和运行依赖于各种系统库和Python库。需要先安装这些依赖: $ sudo yum groupinstall 'Development Tools' # GCC, libtools etc $ sudo0 码力 | 15 页 | 2.07 MB | 1 年前3
Greenplum机器学习⼯具集和案例2017.thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure 历史回顾 2017.thegiac.com 金融 保险 医疗 汽车 制造 科研 政府机构 互联网 娱乐和媒体 零售 MADlib ⽤用户和场景 2017.thegiac.com 功能 Data Types and TransformaJons Array and Matrix Operations Matrix FactorizaDon0 码力 | 58 页 | 1.97 MB | 1 年前3
PostgreSQL和Greenplum 数据库故障排查2018年PostgreSQL中国技术大会 PostgreSQL和Greenplum 数据库故障排查 赵振平 zzp@taryartar.com 北京太阳塔信息科技有限责任公司 2018年PostgreSQL中国技术大会 自我介绍 微信号:laohouzi999 2018年PostgreSQL中国技术大会 • 赵振平,太阳塔技术总监 • 电子工业出版社签约作家 • 腾讯最具价值专家(TVP) 微信号:laohouzi999 log_statement = 'none' # none, ddl, mod, all 控制记录哪些SQL语句。none不记录,ddl记录所有数据定 义命令,比如CREATE,ALTER,和DROP 语句。mod记录所有ddl 语句,加上数据修改语句INSERT,UPDATE等,all记录所有执行的 语句,将此配置设置为all可跟踪整个数据库执行的SQL语句。 log_duration the postmaster is accepting TCP/IP connections. 1)确认防火墙是否关闭 2)确认数据库是否在运行,端口号是否正确 ps -ef |grep post [root@tar1 log]# netstat -a | grep PGSQL 2018年PostgreSQL中国技术大会 3)修改监听 -bash-4.1$ cd $PGDATA -bash-40 码力 | 84 页 | 12.61 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议Greenplum中文社区 https://cn.greenplum.org 博文 资料 文档 项目 全新的问答论坛 分布式事务和 两阶段提交协议 6 ● 事务实现原理和Write Ahead Logging(WAL) ● 分布式事务和两阶段提交的原理 ● Greenplum两阶段提交协议的实现 ● Greenplum两阶段提交协议的优化 Outline 7 事务的属性:ACID 持久性 一个事务在提交之后,该事务对数据库的改变 是持久的。 Write Ahead Logging + 存储管理 Jim Gray于1981年VLDB描述了事务的原子性、一致性和持久性,在此基础上,Haerder和Reuter在1983年中提出了事务的隔离性并提出术语 “ACID”,自此,事务的ACID四个性质成为业内标准术语 8 Disk-Oriented DBMS Components /Jeffrey D.Ullman/Jennifer Widom《数据库系统实现》 查询编译器/ 优化器 事务管理器 DDL编译器 执行引擎 日志和恢复 并发控制 索引/文件/ 记录管理器 缓冲区管理器 缓冲区 锁表 存储管理器 存储 查询计划 对索引、文件和 记录的请求 页命令 事务命令 查询、更新 用户/ 应用 DDL命令 数据库管理员 数据、元数据、索引 日志页 读、写页0 码力 | 42 页 | 2.12 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1miaochen@mail.ustc.edu.cn) 编者工作十几年,先后供职于民企,国企,外企,截止目前,已从事 Greenplum 技术工作 10 余年,10 余年来,专注在 Greenplum 和相关技术领域,主要工作职责是 售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 的发展壮大多做那么一点点贡献,挤出一点时间,重新梳理和打磨这个文档,并完 全根据最新的版本特性进行重新整理,希望能对中文爱好者提供一些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 6 版本都带来了极大 的性能和稳定性的提升。 声明 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部分内容都经过编者重新考量和实测验证,有些观点与官方手册有 出入,仅代表编者本人观点,与官方手册无关。本书中可能会提及一些非官方的命令和 工具等,仅用于讲解相关知识,如有缺失相关细节的情况,请谅解。 致读者 如果您在阅读和参考本书的过程中发现有任何不妥之处,或者有任何的建议和意见, 欢迎联系编者,本书主要针对 GP 数据库的爱好者进行编写,包括产品的安装和使用说 明,以及最佳实践0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum备份恢复浅析不能完全使用Xlog日志备份 3. 需要保证数据完整性和一致性 2017 年象行中国(杭州 站)第一期 Greenplum提供了: 1. 非并行备份和恢复: --pg_dump和pg_dumpall(pg_restore) --copy、psql 2. 并行备份和恢复 --gpcrondump(gpdbrestore) 2017 年象行中国(杭州 站)第一期 并⾏备份和恢复 gpcrondump gpdbrestore ilename>] [--schema-file=| --exclude-schema-file= ] [-u backup_directory] [-R post_dump_script] [--incremental] [ -K [--list-backup-files] ] [--prefix [ 或 者--schema-file,-S或者--exclusive-schema-file灵活指定需要全量备份的某 个table或者某个schema,其中-s和-t选项不能同时使用 gpcrondump命令使用选项--incremental和--prefix执行增量备份,但是这里 的增量备份实际上只对有如下操作的表进行备份; ALTER TABLE DELETE INSERT TRUNCATE UPDATE 0 码力 | 17 页 | 1.29 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台standby primary segment mirror segment 6 Pivotal Confidential–Internal Use Only 数据分布: 并行化的根基 最重要的策略和目标是均匀分布数据到各个数据节点。 43 Oct 20 2005 12 64 Oct 20 2005 111 45 Oct 20 2005 42 46 Oct 20 2005 64 77 Oct 20 Confidential–Internal Use Only 卓越的OLAP特性 列式存储 分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储 表‘SALES’ 16 Pivotal Confidential–Internal Use Only 窗口函数 表‘SALES’ 表‘SALES’ ■ 计算移动平均值或各种时间 间隔的总和 ■ 分组内重置聚合和排序 SELECT last_name, salary, department, rank() OVER w FROM employees WINDOW0 码力 | 52 页 | 4.48 MB | 1 年前3
Pivotal HVR meetup 20190816中国科学技术大学计算机科学学士 • 上海交通大学MBA • 20年+IT从业经验, 专注于数据库技术领域 • 自2003年始从事数据库实时复制技术的解决方案 • 2013年至2015年在SAP 担任大数据和BI解决方案 资深技术顾问 • 2015年加入HVR中国公司担任技术总监 • 微信号: gu9060 个人介绍 3 HVR moves high volumes of data to and 式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时,天天拍车也正在布局二手车金融、二手车保卖等创新业务。截 支持全量同步,但增量同步延时,数据量越大,延时更久。 ➢ JDBC驱动强依赖。 ➢ 版本更新不及时,对GreenPlum新版本无法持续性支持,不稳定。 ➢ 需开发人员支持,二次开发或脚本支持,开发时间成本和人力成本高。 ➢ 支持数据库版本少,无法支持跨多版本的Oracle、MySQL、PostgresSQL、SQL Server等 ➢ 断点续传不支持 ➢ 大量数据同步的情况下,同步组件效率低 参考:https://mp0 码力 | 31 页 | 2.19 MB | 1 年前3
Greenplum 精粹文集下午5:46 Greenplum 精粹文集 1 一、Greenplum 的前生今世 1. Greenplum 的起源 Greenplum 最早是在 10 多年前(大约在 2002 年)出现,基本上 和 Hadoop 是同一时期(Hadoop 约是 2004 年前后出现的,早期的 Nutch 可追溯到 2002 年)。 互联网行业经过之前近 10 年的由慢到快的发展,累积了大量信息和数 据,数据在 模式遇到了瓶颈, SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 的两篇著名论文 发表后引起业界的关注,一篇是关于 GFS 分布式文件系统,另外一篇 是关于 MapReduce 并行计算框架的理论,分布式计算模式在互联网 行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 实现了基于数据库的分布式数据存储和并 行计算(GoogleMapReduce 实现的是基于文件的分布式数据存储和 计算,我们会在后面比较这两种方法的优劣性)。 话说当年 Greenplum(当时还是一个 Startup 公司,创始人家门口有 一棵青梅 ——greenplum,因此而得名)召集了十几位业界大咖(据 说来自 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放0 码力 | 64 页 | 2.73 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 4 白皮书 | 4 关于本白皮书 近日,Greenplum 社区和欧拉开源社区深化合作,在欧拉开源操作系统(openEuler, 简称“欧拉”)编译测试了高级分 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 案,可部署在不同操作系统、 不同芯片的环境,适合本地部署、多云环境(公有云和私有云)中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系 力于提供安全、稳定、易用的操作系统。通过为应用 提供确定性保障能力,支持 OT 领域应用及 OT 与 ICT 的融合。 欧拉开源社区通过开放的社区形式与全球的开发者共同构建一个开放、多元和架构包容的软件生态体系,孵化支持多种 处理器架构、覆盖数字设施全场景,推动企业数字基础设施软硬件、应用生态繁荣发展。 openEuler 作为一个操作系统发行版平台,每两年推出一个 LTS0 码力 | 17 页 | 2.04 MB | 1 年前3
共 40 条
- 1
- 2
- 3
- 4













