Greenplum数据仓库UDW - UCloud中立云计算服务商Greenplum数据仓库 数据仓库 UDW 产品⽂档 2 6 7 7 8 10 10 16 38 38 39 39 39 40 43 44 45 46 47 ⽬录 ⽬录 ⽬录 ⽬录 概览 概览 产品架构 产品架构 云数据仓库产品架构 ⾼可⽤ 快速上⼿ 快速上⼿ ⼀、创建数据仓库 ⼆、连接数据仓库 操作指南 操作指南 关闭数据仓库 启动数据仓库 重启数据仓库 重启数据仓库 查看数据仓库详情 扩容数据仓库 更改数据仓库密码 续费 删除数据仓库 查看操作⽇志 查看监控 ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 2/206 50 50 71 73 73 73 74 74 74 74 75 76 76 79 81 82 90 92 101 102 102 103 104 106 128 访问 访问UDW数据仓库 数据仓库 1 客⼾端⼯具访问UDW 2 图形界⾯的⽅式访问UDW 数据导⼊ 数据导⼊ insert加载数据 copy加载数据 外部表并⾏加载数据 从hdfs加载数据 从mysql中导⼊数据 从oracle中导⼊数据 从ufile加载数据 开发指南 开发指南 1、连接数据库 2、数据库管理 3、模式管理0 码力 | 206 页 | 5.35 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum............................................................. 13 openEuler 20.03 LTS SP1 & SP2 软件仓库中引入 Greenplum 6.17.0 版本 ............................................................. 13 完全兼容欧拉开源操作系统的 成功测试运行所做努力贡献的人员表示感谢! 摘要 Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在不同操作系统、 不同芯片的环境,适合本地部署、多云环境(公有云和私有云)中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 KubeOS:云原生场景,实现 OS 容器化部署、运维,提供与业务容器一致的基于 K8S 的管理体验。 • 安全容器方案:iSulad+shimv2+StratoVirt 安全容器方案,相比传统 docker+qemu 方案,底噪和启动时间 优化 40%。 • 双平面部署工具 eqqo:ARM/X86 双平面混合集群 0S 高效一键式安装,百节点部署时间<15min。 3. 探索场景创新0 码力 | 17 页 | 2.04 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台5 的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 MADlib Python. R、 Java、Perl、C Apache SOLR PostGIS ANSI SQL 其他数据库 SQL ML/统计数据/图形 程序化 文本 地理空间 公有云 私有云 完全 托管云 本地 BI / 报告 自定义应用 机器学习 AI SQL 大规模 并行处理 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload Manager GREENPLUM 5:新一代数据平台 作为能够独立于专用硬件加速提供高性能的纯软件数据平台,Greenplum 可根据客户需求在任何位置运行。借助这种“不 受限于基础架构”的方法,可以在本地或多云环境(私有云或公有云)中部署同一类型的分析数据库。 无论在商业化的 Pivotal Greenplum 或是开源的 Greenplum Database 中,这种不受限于基础架构的方法的大部分优势都 具有同样强大的作用。在0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum Database 管理员指南 6.2.1并行数据装载 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 19 - 海量数据仓库的一个重大挑战是,要在一个受限的时间窗口内完成大量数据的装载。 GP 通过外部表(External Table)支持高速并行数据装载。外部表可以使用[单条记 录出错隔离]模式,以允许在装载数据过程中将出错的数据记录下来。可以设置错误容 是如何在不同的 Instance 之间存储数据的,可以参考下图所示的简单 逻辑关系,主键(Primary Key)被使用黑体标记,外键(Foreign Key)关系通过连 线标明。 用数据仓库的术语来说,这种数据模型称为星型模型。在这种数据库模型下,Order 表通常被称为事实表(Fact Table),其他表(Customer、Vendor、Product)被称 为维表(Dimension 不应该多度追求这种OLTP型的性能,如果可以通过批量或者微批的形式来处理业,将 可以更好的发挥和利用GP的MPP优势,不要总是热衷于跟技术较劲。 追加优化存储 在数据仓库等分析型场景,追加优化(AO)表会表现出更好的性能,这种存储模式 非常适合事实表,事实表通常都是规模很大的表,一般都是批量数据操作和只读查询操 作,另外,AO表不再维护MVCC信息,可以节省一些存储空间,不仅如此,AO表一般还0 码力 | 416 页 | 6.08 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP —— dbsync平台 7 数据仓库体系架构 数据架构示意图 8 数据仓库体系架构 架构的具体技术实现 • 轻量级数据仓库 —— Inforbright – 与MySQL数据库结合,易使用,冷热分离 – 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案2010/4/8 官方网站: www.greenplum.com www.greenplum-china.com Greenplum:简介 Greenplum数据引擎软件为新一代数 据仓库所需的大规模数据和复杂查询功 能所设计 3 推动数据依赖型企业的发展 全球各地的一些Greenplum客户 4 亚太地区 欧洲、中东、非洲 北美 中国的客户 5 金融 交通 互联网 其它 Software-Based Commodity HW • 用户人数 • 安全度 • 查询、报告、分析的数量 • 数据的高度多样性 • 大量定制数据 • 监管要求 商务智能/数据仓库发展趋势 一切都在增长! 数据仓库工作量:数据膨胀 面临的新难题是如何处理大规模数据 过去的10年 现在 HPC 企业 SME 万亿字节 千兆字节 兆字节 千万亿字节 万亿字节 千兆字节 行业商务智能解决方案的实例 客户关系管理、收 购和盈利率 欺诈检测 欺诈分析 客户流失分析 响应时间 流量分析 产品关联/捆绑 零售 存储运营分析 客户忠诚度计划 协作规划和预估 预防亏损 优化供应链 当今的数据仓库方案 基于硬件 专有,昂贵 不可扩展 针对OLTP进行了优化 主流 10 数据库行业所面临的挑战 0 1 2 3 4 5 6 7 8 9 10 1995 20000 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 介绍并行存储、并行通讯、并行计算和优化技术。同时,Greenplum 还兼容 SQL 标准,具备强大、 高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的混合负载,从而帮助客户真正打通业务-数据-洞见-业务的闭环。 目前,Greenplum 、旷世、去哪儿 网、易观、腾云科技、饿了么、金风科技在内大量开源用户。 Greenplum 大数据平台的优势 ● 一次打包到处运行的平台:部署灵活,不受限于硬件环境和平台,无论裸机、私有云、公 有云均可部署。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定, 从而允许客户灵活选择最适合的方案,降低未来的迁移代价,而开发、运维人员无需要学 习新的数据库处理技术,人力成本也能够大大降低。0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum 精粹文集式来设计。得益于这种无所不在的并行,Greenplum 在数据加载和数 据计算中表现出强悍的性能,某行业客户对此深有体会 : 同样 2TB 左 右的数据,在 Greenplum 中不到一个小时就加载完成了,而在用户传 统数据仓库平台上耗时半天以上。 在该用户的生产环境中,1 个数百亿表和 2 个 10 多亿条记录表的全表 关联中(只有 on 关联条件,不带 where 过滤条件,其中一个 10 亿 条的表计算中需要重分布),Greenplum 精粹文集 9 Greenplum 建立在 Share-nothing 无共享架构上,让每一颗 CPU 和 每一块磁盘 IO 都运转起来,无共享架构将这种并行处理发挥到极致。 相比一些其它传统数据仓库的 Sharedisk 架构,后者最大瓶颈就是在 IO 吞吐上,在大规模数据处理时,IO 无法及时 feed 数据给到 CPU, CPU 资源处于 wait 空转状态,无法充分利用系统资源,导致 SQL 并行计算技术,而不是大量的小问题的高并发请求。 再通俗点说,Greenplum 主要定位在 OLAP 领域,利用 Greenplum MPP 数据库做大数据计算或分析平台非常适合,例如 : 数据仓库系统、 ODS 系统、ACRM 系统、历史数据管理系统、电信流量分析系统、移 动信令分析系统、SANDBOX 自助分析沙箱、数据集市等等。 Big Date2.indd 11 16-11-220 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum开源MPP数据库介绍Greenplum 开源MPP数据仓库介绍 李晓亮Greenplum工程师、内核团队经理 Confidential │ ©2022 VMware, Inc. 2 Agenda Ø Greenplum简介 Ø Greenplum的MPP架构 Ø 分布式优化器: Postgres planner 和 ORCA Ø 分布式事务和执行 Ø Greenplum存储 Confidential │ ©2022 VMware, Inc. 3 Greenplum简介:什么是Greenplum? 基于PostgreSQL、开源、分布式MPP、ACID完备、为OLAP优化的关系型数据仓库。 https://greenplum.org https://github.com/greenplum-db/gpdb Confidential │ ©2022 VMware, Inc. 4 Greenplum项目,从 PostgreSQL 8 分支,做成 MPP架构 Ø 2010年被EMC收购 Ø 2012年成为Pivotal的一部分 Ø 2015年开源,可能是世界上第一个成熟商用的开源 MPP数据仓库 Ø 2019年底跟随Pivotal被VMware收购 Confidential │ ©2022 VMware, Inc. 5 谁在用Greenplum? Ø 500多付费企业客户 Ø 成千上万的开源用户 0 码力 | 23 页 | 4.55 MB | 1 年前3
基于 Greenplum 打造SaaS化电商服务平台库 推 送 库 中 间 库 商 品 库 核 心 库 辅 助 库 推 送 库 中 间 库 商 品 库 核 心 库 辅 助 库 账 号 库 店 铺 库 其 他 库 业务系统 数据仓库 G P 1 G P 2 G P 2 5 交 换 库 •业务库 •分库分表 •一组五个数据库 •250组数据库+公共库 •每15到20天增加10组 •31个GP集群 •30个业务数据集群, •ETL处理,大部分在线 分析查询采用GP •极端复杂查询 拆分 •2019年7月上线ADB分 担极端复杂的在线分 析,有待验证 数据集市 报表 CRM 胜算 …… …… …… …… 数据仓库演变 2015 2016 2017 2018 2019 2014原始阶段 2016.4全新报表界面:梳理业务、开发报表 2016.9自建GP集群,上线工作量统计 2018.3HDB4PG0 码力 | 7 页 | 547.94 KB | 1 年前3
共 27 条
- 1
- 2
- 3













