Greenplum on Kubernetes
容器化MPP数据库Kubernetes 容器化MPP数据库 AGENDA 云数据库背景 云数据库实现方案 Greenplum on Kubernetes Greenplum Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 → 半结构化/无模式 ○ 数据隔离 云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云 云数据库实现方案 ● 全新数据库 ○ Snowflake ● 原有数据库架构升级 ○ Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Segment Instance Segment 5 (Mirror) 容器化Greenplum ? + = 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联 ○ 本机网络 ○ 跨机网络 ● 容器化Greenplum部署策略 ○ Master部署策略 ○ Primary0 码力 | 33 页 | 1.93 MB | 1 年前3
基于 Greenplum 打造SaaS化电商服务平台基于GP打造SaaS化电商服务平台 聚水潭 秃鹰 赵坚密 2019.08.10 聚水潭成立于2014年1月,创始人兼CEO骆海东拥有超过二十年传统 及电商ERP的研发和实施部署经验,公司核心管理团队来自于阿里巴 巴、亚马逊、中国平安和麦包包等知名公司。 聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务, 快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经 发展成为以SaaS0 码力 | 7 页 | 547.94 KB | 1 年前3
Greenplum 精粹文集要专注在分布式技术中最核心的并行处理技术上面,协调我们下面 的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像 车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不 亿条记录做逻辑回归,采用一台小型机耗时约 4 个 多小时,通过部署到 Greenplum 集群中,耗时不到 2 分钟就全部完成 了。以 GPEXT 为例,下图展现了 Solr 全文检索在 Greenplum 中的并 行化风格。 Big Date2.indd 10 16-11-22 下午3:38 Greenplum 精粹文集 11 最 后, 也 许 你 会 有 问 题,Greenplum 采 用 Master-slave MPP 数据库则会直接 取行列表,效率高。 Hadoop 按 64MB 拆分文件,而且数据不能保证在所有节点都均匀 分布,因此,MAP 过程的并行化程度低;MPP 数据库按照数据记 录拆分和 Hash 分布,粒度更细,数据分布在所有节点中非常均匀, 并行化程度很高。 HadoopHDFS 没有灵活的索引、分区、列存储等技术支持,而 MPP 通常利用这些技术大幅提高数据的检索效率。 ·MAShuffle0 码力 | 64 页 | 2.73 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum........................................................................................... 8 构筑云化基座 ................................................................................................. ........................................................................................... 11 利用容器实现安全分析 ............................................................................................ 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点, 同时介绍了 Greenplum 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 介绍的弹性和线性扩展能力,并内置 并行存储、并行通讯、并行计算和优化技术。同时,Greenplum 还兼容 SQL 标准,具备强大、 高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的混合负载,从而帮助客户真正打通业务-数据-洞见-业务的闭环。 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、 、SAS、Talend、Qlik、Tableau、Anaconda、 Microstrategy、Boundless、Zattset、Datometry 等,涵盖 ETL、商业智能、高级分析、可视化、 集成分析、GIS 数据处理、迁移、安全和管理等各个领域。 更多信息请访问 greenplum.cn。0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商客户端⼯具访问UDW udw⽀持按照postgresql的客⼾端来访问udw,⽀持udw客⼾端访问,还可以⽀持jdbc、odbc、php、python、psql等⽅式来访问udw。另外,也可以通过图形化的SQL Workbench/J、 Navicat等⼯具来访问udw。 1.1 psql客户端⽅式访问 客户端⽅式访问 下载psql客⼾端 yum install postgresql.x86_64 开发指南 开发指南 1、连接数据库 、连接数据库 udw ⽀持按照 postgresql ⽅式来访问 udw,可以⽀持 jdbc、odbc、php、python、psql 等⽅式来访问 udw。图形化的 pgAdmin、SQL Workbench/J 等⼯具 1.1 psql 客户端⽅式访问 客户端⽅式访问 下载 psql 客⼾端(或者通过控制台下载 udw 客⼾端) yum install (切换到template1数据库) DROP DATABASE product; 3、模式管理 、模式管理 数据库模式(schema)是包含了⼀系列数据库对象(表,数据类型,⾃定义函数)集合的命名容器。⼀个数据库可以有多个模式。不同模式不共享命名空间。public 模式是在创建数据库之后就 会默认创建的,每个⽤⼾都有权限在这个 schema 创建对象,如果不指定 schema 那么就会默认创建到这⾥。0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1............................................................................. - 263 - 第十二章:安装部署与初始化 .............................................................................................. - 265 ......................... - 284 - 初始化 GP 数据库集群 ................................................................................................... - 285 - 创建初始化网络端口文件 ............................... 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 8 - 创建初始化配置文件 .............................................................................................. - 286 - 执行初始化操作 ........................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum机器学习⼯具集和案例Greenplum ⼤大数据平台 • 一次打包,到处运行:裸机、私有云、公有云 • 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC ● 现有数据分析流程 繁琐,速度慢,有 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公 司 ● 简化Data 流程 ● 在Madlib上重新建 模和预测 ● 实现流程全⾃自动化 背景 2017.thegiac.com 数据源 • 客户数据 - 购买 - 预定 - 营销 - 在线注册 对Pivotal产品线不不熟悉 ✓ 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动 化 X 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客 户 商业影响 20170 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 编译安装和调试Greenplum 编译安装和调试 本文先介绍如何从源代码编译安装Greenplum、初始化Greenplum集群。然后介绍SQL在 Greenplum中的典型执行路径,最后介绍一些调试技巧。 源代码使用 Greenplum 开源社区最新源代码 6X_STABLE 分支: https://github.com/greenplum-db/gpdb,内核代码基于 PostgreSQL Redhat/Centos/SuSE/Ubuntu 等Linux系统。大量开发人员包括我自己 使用Mac系统,但是不在官方支持列表中。 1.1 在 Mac 系统上编译 首先需要关闭苹果操作系统的 SIP 特性,否则无法初始化集群。 1. 重启操作系统 2. 重启过程中按下 command+R 进入恢复模式 3. 从 Utilities 菜单选择 Terminal 4. 执行 csrutil disable --disable-gpcloud \ --disable-gpfdist --prefix=$HOME/gpdb.master $ make [-j4] $ make install 在苹果系统上初始化Greenplum单节点集群时,需要做些准备工作: ● 添加export PGHOST=localhost至~/.bash_profile ● 将本机的hostname与1270 码力 | 15 页 | 2.07 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台..............................................................................................7 架构化查询语言性能提升 ........................................................................................... Teradata SQL Apache MADlib Python. R、 Java、Perl、C Apache SOLR PostGIS ANSI SQL 其他数据库 SQL ML/统计数据/图形 程序化 文本 地理空间 公有云 私有云 完全 托管云 本地 BI / 报告 自定义应用 机器学习 AI SQL 大规模 并行处理 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload Manager 多态存储 Command Center SQL 兼容性 (Hyper-Q) PostgreSQL 内核 JSON、Apache AVRO、Apache Parquet 和 XML 结构化数据 pivotal.io/cn 白皮书 5 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台0 码力 | 9 页 | 690.33 KB | 1 年前3
共 23 条
- 1
- 2
- 3













