Greenplum on Kubernetes
容器化MPP数据库Kubernetes 容器化MPP数据库 AGENDA 云数据库背景 云数据库实现方案 Greenplum on Kubernetes Greenplum Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 → 半结构化/无模式 ○ 数据隔离 云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云 云数据库实现方案 ● 全新数据库 ○ Snowflake ● 原有数据库架构升级 ○ Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Segment Instance Segment 5 (Mirror) 容器化Greenplum ? + = 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联 ○ 本机网络 ○ 跨机网络 ● 容器化Greenplum部署策略 ○ Master部署策略 ○ Primary0 码力 | 33 页 | 1.93 MB | 1 年前3
基于 Greenplum 打造SaaS化电商服务平台基于GP打造SaaS化电商服务平台 聚水潭 秃鹰 赵坚密 2019.08.10 聚水潭成立于2014年1月,创始人兼CEO骆海东拥有超过二十年传统 及电商ERP的研发和实施部署经验,公司核心管理团队来自于阿里巴 巴、亚马逊、中国平安和麦包包等知名公司。 聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务, 快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经 发展成为以SaaS0 码力 | 7 页 | 547.94 KB | 1 年前3
Greenplum 6: 混合负载的理想数据平台简单易用 VS 结构化 半结构非结构化 VS 事务型 分析型 VS MPP - massively parallel processing - 大规模并行处理 master standby primary segment mirror segment 6 Pivotal Confidential–Internal Use Only 数据分布: 并行化的根基 最重要的 Only TPC-B基准测试:环境 基于谷歌云平台(Google Cloud Platform,简称GCP),为5个虚拟主机的集群,包含一 个master主机和四个segment主机,master和segment虚拟主机的配置信息如下 master segment 虚拟机类型 n1-standard-16 n1-standard-8 CPU核数 16 8 内存大小(GB) 60 300 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1............................................................................. - 263 - 第十二章:安装部署与初始化 .............................................................................................. - 265 ......................... - 284 - 初始化 GP 数据库集群 ................................................................................................... - 285 - 创建初始化网络端口文件 ............................... 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 8 - 创建初始化配置文件 .............................................................................................. - 286 - 执行初始化操作 ........................................0 码力 | 416 页 | 6.08 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考422 个postgresql实例 Ø 实例分布成为 28 个Greenplum集群或postgresql单实例 • 服务器资源 Ø 三大Greenplum集群,共使用 51 台服务器资源 Ø 12台虚拟机,39台物理机 17 Greenplum现状说明 三大Greenplum集群定位分类 • 公司IDC_01机房Greenplum体系 Ø 公司第一套Greenplum集群,网络环境为千兆网 Greenplum运维体系 环境创建与部署 • 部署流程 Ø 规划部署方案 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系 环境创建与部署 • 部署注意点 Ø 资源要充足(ETL,管理节点,数据节点,数据集市) 39 Greenplum扩展规划 整体扩展思路 • OLAP三大模块不断完善 Ø 通过dbsync程序,实现数据传输和加载优化 Ø 对于Greenplum上的架构和设计不断优化 Ø 继续建设多样化的postgresql数据集市,满足不同需求 • 优化现有业务的调度实现 Ø 时间周期的考量 Ø 并发与功能实现的权衡 Ø 增强任务可控性和可度量性 • 支持符合条件的新业务 Ø 抽象业务模型,整合使用分类0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商客户端⼯具访问UDW udw⽀持按照postgresql的客⼾端来访问udw,⽀持udw客⼾端访问,还可以⽀持jdbc、odbc、php、python、psql等⽅式来访问udw。另外,也可以通过图形化的SQL Workbench/J、 Navicat等⼯具来访问udw。 1.1 psql客户端⽅式访问 客户端⽅式访问 下载psql客⼾端 yum install postgresql.x86_64 开发指南 开发指南 1、连接数据库 、连接数据库 udw ⽀持按照 postgresql ⽅式来访问 udw,可以⽀持 jdbc、odbc、php、python、psql 等⽅式来访问 udw。图形化的 pgAdmin、SQL Workbench/J 等⼯具 1.1 psql 客户端⽅式访问 客户端⽅式访问 下载 psql 客⼾端(或者通过控制台下载 udw 客⼾端) yum install BY(key))和随机分布(DISTRIBUTED RANDOMLY)。如果不指定分布策略则默认按primary key或者第⼀个column 做哈希分布。 为了尽可能的并⾏处理数据,需要选择能够最⼤化地将数据均匀分布到所有计算节点的策略,⽐如选择 primary key;分布式处理中将会存在本地和分布式协作的操作,当不同的表使⽤相 同的分布键的时候,⼤部分的排序、连接关联操作⼯作将会在本地完成,0 码力 | 206 页 | 5.35 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum........................................................................................... 8 构筑云化基座 ................................................................................................. 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点, 同时介绍了 Greenplum 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原 不同芯片的环境,适合本地部署、多云环境(公有云和私有云)中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 精粹文集要专注在分布式技术中最核心的并行处理技术上面,协调我们下面 的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像 车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不 亿条记录做逻辑回归,采用一台小型机耗时约 4 个 多小时,通过部署到 Greenplum 集群中,耗时不到 2 分钟就全部完成 了。以 GPEXT 为例,下图展现了 Solr 全文检索在 Greenplum 中的并 行化风格。 Big Date2.indd 10 16-11-22 下午3:38 Greenplum 精粹文集 11 最 后, 也 许 你 会 有 问 题,Greenplum 采 用 Master-slave MPP 数据库则会直接 取行列表,效率高。 Hadoop 按 64MB 拆分文件,而且数据不能保证在所有节点都均匀 分布,因此,MAP 过程的并行化程度低;MPP 数据库按照数据记 录拆分和 Hash 分布,粒度更细,数据分布在所有节点中非常均匀, 并行化程度很高。 HadoopHDFS 没有灵活的索引、分区、列存储等技术支持,而 MPP 通常利用这些技术大幅提高数据的检索效率。 ·MAShuffle0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum机器学习⼯具集和案例Greenplum ⼤大数据平台 • 一次打包,到处运行:裸机、私有云、公有云 • 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC ● 现有数据分析流程 繁琐,速度慢,有 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公 司 ● 简化Data 流程 ● 在Madlib上重新建 模和预测 ● 实现流程全⾃自动化 背景 2017.thegiac.com 数据源 • 客户数据 - 购买 - 预定 - 营销 - 在线注册 对Pivotal产品线不不熟悉 ✓ 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动 化 X 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客 户 商业影响 20170 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 编译安装和调试Greenplum 编译安装和调试 本文先介绍如何从源代码编译安装Greenplum、初始化Greenplum集群。然后介绍SQL在 Greenplum中的典型执行路径,最后介绍一些调试技巧。 源代码使用 Greenplum 开源社区最新源代码 6X_STABLE 分支: https://github.com/greenplum-db/gpdb,内核代码基于 PostgreSQL Redhat/Centos/SuSE/Ubuntu 等Linux系统。大量开发人员包括我自己 使用Mac系统,但是不在官方支持列表中。 1.1 在 Mac 系统上编译 首先需要关闭苹果操作系统的 SIP 特性,否则无法初始化集群。 1. 重启操作系统 2. 重启过程中按下 command+R 进入恢复模式 3. 从 Utilities 菜单选择 Terminal 4. 执行 csrutil disable --disable-gpcloud \ --disable-gpfdist --prefix=$HOME/gpdb.master $ make [-j4] $ make install 在苹果系统上初始化Greenplum单节点集群时,需要做些准备工作: ● 添加export PGHOST=localhost至~/.bash_profile ● 将本机的hostname与1270 码力 | 15 页 | 2.07 MB | 1 年前3
共 23 条
- 1
- 2
- 3













