Greenplum Database 管理员指南 6.2.1一些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 6 版本都带来了极大 的性能和稳定性的提升。 声明 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部分内容都经过编者重新考量和实测验证,有些观点与官方手册有 出入,仅代表编者本 ....................................................................................... - 229 - 查询性能................................................................................................... ................................................................................... - 266 - Raid 卡性能 ..................................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum............................................................................ 10 Greenplum VACUUM 提升 .................................................................................................. 库软件解决方案,可部署在不同操作系统、 不同芯片的环境,适合本地部署、多云环境(公有云和私有云)中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧 内存回收算法保障在线业务安全可靠运行。 • 新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步 时间,提升文件读写性能。 • 内存分级扩展 etMem:新增用户态 swap 功能,策略配置淘汰的冷内存交换到用户态存储,用户无感知,性能 优于内核态 swap。 2. 夯实云化基座 容器操作系统 KubeOS:云原生场景,实现 OS 容器化部署、运维,提供与业务容器一致的基于0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案数据 市场 企业数 据仓库 企业数据集合:主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 • 确保关键任务的可靠性 • 最出色的性能 • 高度灵活性 • 逐步扩展计算能力 • 动态措施 • 数据访问: • 在一个系统中协调所有企业数据的位置 • 可以通过任何语言(SQL、M/R等)进行分析 14 强大并且不断扩展的合作伙伴网络 库管理系统市场的突破力量” Gartner的Donald Feinberg 17 通过Greenplum超级数据处 理引擎增强竞争优势 Greenplum数据引擎:内容和方式 价值主张 – 性价比: 性能可达到传统方案(Oracle、Teradata)的 10到100倍, 而成本只是其一小部分 – 可伸缩性:从较低的万亿字节扩展到千万亿字节 – 开放式系统:在通用系统和开放源软件的基础上创建 /数据仓库 进行了优化,解决了所有数据流瓶颈问题 Greenplum数据引擎 全球最强大的分析数据仓库 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、 ELT、文本挖掘、统计 运算提供统一的平台 • 可以使用SQL、 MapReduce、R等在 所有层次上对任何数 据进行并行分析 190 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 精粹文集年的由慢到快的发展,累积了大量信息和数 据,数据在爆发式增长,这些海量数据急需新的计算方式,需要一场 计算方式的革命。 传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也 难于满足数据计算性能指标,传统主机的 Scale-up 模式遇到了瓶颈, SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 咖(据 说来自 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 计算的功能也无能为力,就其因估计还是受到 mysql 在这方面限制。 3) 扩展性方面,Postgresql 比 mysql 也要出色许多,Postgres 天生就 是0 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台........................................................................................7 架构化查询语言性能提升 ................................................................................................. 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 询。与旧式 MPP 数据库中常用的传统 RDBMS 查询优化器相比,GPORCA 大幅度地提高了查询性能。 Pivotal Greenplum 5:新一代数据平台 作为重要的新版本,Pivotal Greenplum 5 带来了多项产品改进和新增功能,在管理数据和对数据库中存储的信息应用数据 科学 解决方案的架构设计目的是管理 非常复杂的查询,以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分 析扩展功能支持 ANSI SQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够管理各种规模的数据卷,数 据量从数 GB 到数0 码力 | 9 页 | 690.33 KB | 1 年前3
Pivotal Greenplum 最佳实践分享1000000000 kernel.sem = 250 512000 100 2048 Redhat 6.2以后,内核增加了hugepage大页内存管理,关闭hugepage可以提高混合负载管理性能 设置办法:修改local脚本 For SUSE /etc/init.d/boot.local For RHLE /etc/rc.d/rc.local 追加内容: 这样来保证每个Instance所需资源,保证系统 系统运行稳定性,例如,减少OOM发生的概率; • 对于以批处理、串行工作为主的系统,可以配 置到8个Instance,这样可以尽可能的发挥每个 CPU的处理性能。 Master query plan Client Segments Segments Segments Segments Segment Server:Mirror Spread 圾空间的回收方 式: 1)Vacuum 2)Vacuum full 3)REORGANIZE • 不进行垃圾空间回收的影响 o 垃圾空间浪费存储空间 o 垃圾空间影响查询性能 注:delete all用truncate代替,truncate无需回收垃圾空间 垃圾空间回收 Vacuum:标记垃圾空间为可再利用 Vacuum0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum机器学习⼯具集和案例可扩展性 – PageRank 性能 2017.thegiac.com MADlib vs. Spark: 不不同的产品,侧重点不不同 MADlib Spark 算法库 易用性 需要编程 查询优化 成熟度稍差 内存和流处理 通过 Gemfire SQL 语法支持 需要提升 磁盘数据 不是核心焦点 并发性能 不是核心焦点 大数据关联 Net 特征选择 模型 1 2 3 4 5 6 改进后的 in-database 流程 2017.thegiac.com 数据编辑/整理理 之前 之后 性能提升 ● 181 ⾏行行代码 ● 75 分钟 ● 116 ⾏行行代码 ● 8 分钟 9.35x 特征编辑 ● 439 特征 ● 4,517 ⾏行行代码 ●0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台n … Transition 函数 操作一小批数据并更新 模型状态 1 Merge 函数 2 Final函数 3 Segment 1 19 Madlib: PageRank性能 Greenplum集群: ● 1 master ● 4*6 segment 50亿条链接 (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log ■ 3.5倍的TPS提升 ■ master CPU使用率大幅提高 ■ TPS随着master CPU核数增加同 步提高 ■ 22万 TPS (192核单机部署 ,master+18 segments) 34 Pivotal Confidential–Internal Use Only TPC-B基准测试:UPDATE ■ 得益于并发更改特性 ■ 70倍的TPS提升 35 Pivotal Confidential–Internal Use Only TPC-B基准测试:INSERT ■ 峰值TPS提升3.6倍 36 Pivotal Confidential–Internal Use Only TPC-B基准测试:多语句 表‘SALES’ 表‘SALES’ ■ 峰值TPS提升60倍 BEGIN; UPDATE pgbench_accounts SET abalance = abalance0 码力 | 52 页 | 4.48 MB | 1 年前3
Pivotal HVR meetup 20190816your Business 提升业务洞察力 关键业务连续性 提高效率 降低风险 5 Geographical Distribution Real-Time Analytics Data Lake Data Warehouse Cloud HVR 连续数据集成技术 Migrations Disaster Recovery 6 扩展性—高性能架构 7 • 创建并装载目标表 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时,天天拍车也正在布局二手车金融、二手车保卖等创新业务。截 至目前,天天拍车已在全国超过50个多城市设立线下交易服务中心。0 码力 | 31 页 | 2.19 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商ufile 数据导⼊到 udw,我们提供了 ufile 外部表,导⼊数据到 udw,使⽤⽅法请参考:ufile数据导⼊到udw 6、分区表 、分区表 分区表在逻辑上把⼀个⼤表切割成⼩表,分区表可以优化查询性能、在查询的时候只查询部分分区的内容。另外分区表可以很⽅便的让数据仓库把⼀些⽐较⽼的数据移出数据仓库。 ⽬前udw⽀持的分区表类型有: range分区:把数据根据指定的范围进⾏分区,例如:时间范围、数值范围 list分区:把数据按照⼀个list的值进⾏分区,例如:产品的种类、地区 使⽤分区表的场景: � 数据表⾜够⼤:⼤表格是⽐较适合做分区的、如果你的表格有上亿⾏或者更多的的数据,可以通过分区把数据通过分区分为很多⼩的部分、从⽽提⾼性能。如果⼀个表只有⼏千⾏和⼏ 万⾏就不需要再做分区。 查询模式固定:例如你经常按照⽇期去查找表格数据、我们可以按照每⽉或者每天做分区;如果你需要按照地区去访问数据,我们可以按照地区去做分区。 数据 留⼀年的数据、如果按⽉做分区、可以通过分区很⽅便的删除最早的⽉份分区、把数据加载到最新的⽉份分区。 把数据分为⼏个均等的部分:通过⼀个分区标准把⼀个⼤表的数据划分为均等的分区,这样可以等倍的提⾼查询性能。 使⽤分区的时候请避免建⽴过多的分区,创建过多的分区可能会影响管理和维护作业,例如: 清理⼯作,节点恢复,集群扩展,查看磁盘使⽤情况等。 开发指南 Greenplum数据仓库 UDW Copyright0 码力 | 206 页 | 5.35 MB | 1 年前3
共 20 条
- 1
- 2













