虚拟化管理程序 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum on Kubernetes 容器化MPP数据库

Kubernetes 容器化MPP数据库 AGENDA 云数据库背景云数据库实现方案 Greenplum on Kubernetes Greenplum Operator 总结云数据库背景云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 → 半结构化/无模式 ○ 数据隔离云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云云数据库实现方案 ● 全新数据库 ○ Snowflake ● 原有数据库架构升级 ○ Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Segment Instance Segment 5 (Mirror) 容器化Greenplum ? + = 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联 ○ 本机网络 ○ 跨机网络 ● 容器化Greenplum部署策略 ○ Master部署策略 ○ Primary

0 码力 | 33 页 | 1.93 MB | 1 年前
3
基于 Greenplum 打造SaaS化电商服务平台

基于GP打造SaaS化电商服务平台聚水潭秃鹰赵坚密 2019.08.10 聚水潭成立于2014年1月，创始人兼CEO骆海东拥有超过二十年传统及电商ERP的研发和实施部署经验，公司核心管理团队来自于阿里巴巴、亚马逊、中国平安和麦包包等知名公司。聚水潭创建之初，以电商SaaS ERP切入市场，凭借出色的产品和服务，快速获得市场领先地位。随着客户需求的不断变化，如今聚水潭已经发展成为以SaaS

0 码力 | 7 页 | 547.94 KB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

简单易用 VS 结构化半结构非结构化 VS 事务型分析型 VS MPP - massively parallel processing - 大规模并行处理 master standby primary segment mirror segment 6 Pivotal Confidential–Internal Use Only 数据分布: 并行化的根基最重要的 Only TPC-B基准测试：环境基于谷歌云平台（Google Cloud Platform，简称GCP），为5个虚拟主机的集群，包含一个master主机和四个segment主机，master和segment虚拟主机的配置信息如下 master segment 虚拟机类型 n1-standard-16 n1-standard-8 CPU核数 16 8 内存大小（GB） 60 30

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

............................................................................. - 263 - 第十二章：安装部署与初始化 .............................................................................................. - 265 ......................... - 284 - 初始化 GP 数据库集群 ................................................................................................... - 285 - 创建初始化网络端口文件 ............................... 版权所有：Esena(陈淼 +86 18616691889) 编写：陈淼 - 8 - 创建初始化配置文件 .............................................................................................. - 286 - 执行初始化操作 ........................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

422 个postgresql实例 Ø 实例分布成为 28 个Greenplum集群或postgresql单实例 • 服务器资源 Ø 三大Greenplum集群，共使用 51 台服务器资源 Ø 12台虚拟机，39台物理机 17 Greenplum现状说明三大Greenplum集群定位分类 • 公司IDC_01机房Greenplum体系 Ø 公司第一套Greenplum集群，网络环境为千兆网 Greenplum运维体系环境创建与部署 • 部署流程 Ø 规划部署方案 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系环境创建与部署 • 部署注意点 Ø 资源要充足（ETL，管理节点，数据节点，数据集市） 39 Greenplum扩展规划整体扩展思路 • OLAP三大模块不断完善 Ø 通过dbsync程序，实现数据传输和加载优化 Ø 对于Greenplum上的架构和设计不断优化 Ø 继续建设多样化的postgresql数据集市，满足不同需求 • 优化现有业务的调度实现 Ø 时间周期的考量 Ø 并发与功能实现的权衡 Ø 增强任务可控性和可度量性 • 支持符合条件的新业务 Ø 抽象业务模型，整合使用分类

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

客户端⼯具访问UDW udw⽀持按照postgresql的客⼾端来访问udw，⽀持udw客⼾端访问，还可以⽀持jdbc、odbc、php、python、psql等⽅式来访问udw。另外，也可以通过图形化的SQL Workbench/J、 Navicat等⼯具来访问udw。 1.1 psql客户端⽅式访问客户端⽅式访问下载psql客⼾端 yum install postgresql.x86_64 开发指南开发指南 1、连接数据库、连接数据库 udw ⽀持按照 postgresql ⽅式来访问 udw，可以⽀持 jdbc、odbc、php、python、psql 等⽅式来访问 udw。图形化的 pgAdmin、SQL Workbench/J 等⼯具 1.1 psql 客户端⽅式访问客户端⽅式访问下载 psql 客⼾端（或者通过控制台下载 udw 客⼾端） yum install BY(key)）和随机分布(DISTRIBUTED RANDOMLY)。如果不指定分布策略则默认按primary key或者第⼀个column 做哈希分布。为了尽可能的并⾏处理数据，需要选择能够最⼤化地将数据均匀分布到所有计算节点的策略，⽐如选择 primary key；分布式处理中将会存在本地和分布式协作的操作，当不同的表使⽤相同的分布键的时候，⼤部分的排序、连接关联操作⼯作将会在本地完成，

0 码力 | 206 页 | 5.35 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

........................................................................................... 8 构筑云化基座 ................................................................................................. 析数据平台 Greenplum，用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容，是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板，大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系统平台架构、创新性及核心特点，同时介绍了 Greenplum 作为一款深受技术爱好者喜爱的、中立的纯开源软件，践行 “Run Everywhere”原不同芯片的环境，适合本地部署、多云环境（公有云和私有云）中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性，具备良好性能、可靠性和稳定性，使得 Greenplum 不仅可以作为全能的分析化平台，也能满足交易型业务场景，能够处理多种并发混合工作负载，专为满足在多结构数据环境中进行实时分析的需求而设计。欧拉开源操作系统是一款面向数字基础设施的操作系统，支持服务器、云计算、边缘计算、嵌入式等应用场景，支持多

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum 精粹文集

要专注在分布式技术中最核心的并行处理技术上面，协调我们下面的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像车轮一样，经过几十年磨砺，数据库引擎技术已经非常成熟，大可不必去重新设计开发，而且把数据库底层交给其它专业化组织来开发（对应到 Postgresql 就是社区），还可充分利用到社区的源源不断的创新能力和资源，让产品保持持续旺盛的生命力。这也是我们在用户选型时，通常建议用户考察一下底层的技术支撑是不亿条记录做逻辑回归，采用一台小型机耗时约 4 个多小时，通过部署到 Greenplum 集群中，耗时不到 2 分钟就全部完成了。以 GPEXT 为例，下图展现了 Solr 全文检索在 Greenplum 中的并行化风格。 Big Date2.indd 10 16-11-22 下午3:38 Greenplum 精粹文集 11 最后，也许你会有问题，Greenplum 采用 Master-slave MPP 数据库则会直接取行列表，效率高。 Hadoop 按 64MB 拆分文件，而且数据不能保证在所有节点都均匀分布，因此，MAP 过程的并行化程度低；MPP 数据库按照数据记录拆分和 Hash 分布，粒度更细，数据分布在所有节点中非常均匀，并行化程度很高。 HadoopHDFS 没有灵活的索引、分区、列存储等技术支持，而 MPP 通常利用这些技术大幅提高数据的检索效率。 ·MAShuffle

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

Greenplum ⼤大数据平台 • 一次打包，到处运行：裸机、私有云、公有云 • 各种数据源：Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式：结构化、半结构化（JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展：PL/X、Extension、PXF、外部表机制 • 完善的标准支持：SQL、JDBC、ODBC ● 现有数据分析流程繁琐，速度慢，有很多⼿手动步骤，易易出错客户数据科学解决⽅方案 ● 某⼤大型跨国多元化传媒和娱乐公司 ● 简化Data 流程 ● 在Madlib上重新建模和预测 ● 实现流程全⾃自动化背景 2017.thegiac.com 数据源 • 客户数据 - 购买 - 预定 - 营销 - 在线注册对Pivotal产品线不不熟悉 ✓ 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动化 X 代码复杂冗余，很多数据类型转换 ✓ 代码更更精简，更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客户商业影响 2017

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum 编译安装和调试

Greenplum 编译安装和调试本文先介绍如何从源代码编译安装Greenplum、初始化Greenplum集群。然后介绍SQL在 Greenplum中的典型执行路径，最后介绍一些调试技巧。源代码使用 Greenplum 开源社区最新源代码 6X_STABLE 分支： https://github.com/greenplum-db/gpdb，内核代码基于 PostgreSQL Redhat/Centos/SuSE/Ubuntu 等Linux系统。大量开发人员包括我自己使用Mac系统，但是不在官方支持列表中。 1.1 在 Mac 系统上编译首先需要关闭苹果操作系统的 SIP 特性，否则无法初始化集群。 1. 重启操作系统 2. 重启过程中按下 command+R 进入恢复模式 3. 从 Utilities 菜单选择 Terminal 4. 执行 csrutil disable --disable-gpcloud \ --disable-gpfdist --prefix=$HOME/gpdb.master $ make [-j4] $ make install 在苹果系统上初始化Greenplum单节点集群时，需要做些准备工作： ● 添加export PGHOST=localhost至~/.bash_profile ● 将本机的hostname与127

0 码力 | 15 页 | 2.07 MB | 1 年前
3

共 23 条前往

页

分类

语言

格式