完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum............................................................................ 10 Greenplum VACUUM 提升 .................................................................................................. 动抑制,创新业务优先级 00M 内存回收算法保障在线业务安全可靠运行。 • 新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步 时间,提升文件读写性能。 • 内存分级扩展 etMem:新增用户态 swap 功能,策略配置淘汰的冷内存交换到用户态存储,用户无感知,性能 优于内核态 swap。 2. 夯实云化基座 容器操作系统 Embedded,镜像大小<5M,启动时间<5S。 4. 繁荣社区生态 友好卓面环境:UKUDDEXfce 卓面环境,丰富社区卓面环境生态。 • 欧拉 DevKit:支持操作系统迁移、兼容性评估、简化安全配置 secPaver 等更多开发工具。 Greenplum:新一代 HTAP 数据平台 Greenplum 自 2006 年发布第一个版本以来,就以精巧架构、简单0 码力 | 17 页 | 2.04 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台.......................................................................................7 架构化查询语言性能提升 .................................................................................................. 机器学习 AI SQL 大规模 并行处理 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload Manager 多态存储 Command Center SQL 兼容性 (Hyper-Q) PostgreSQL 内核 JSON、Apache AVRO、Apache Parquet 和 XML 结构化数据 pivotal.io/cn 白皮书 5 © Copyright 后,系统将中间结果与主表结合,生成符合用户条件的结果集。借助上 述及其他优化方法,经过 GPORCA 优化的 SQL 查询可实现 10 倍甚至更大幅度的速度提升。但是,也有其他一些查询(尽 管数量不多)尚且无法通过 GPORCA 实现性能提升。随着 GPORCA 的功能逐渐增多,传统查询优化器能够在性能上胜出 的情况将变得极为罕见。4 Greenplum资源组和Workload Manager0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum 精粹文集DataFrames 模型中; 基本上都缺少索引和存储过程等特征 除 HAWQ 外,大多对于 ODBC/JDBC/DBI/OLEDB/.NET 接口的支持 有限,与主流第三方 BI 报表工具的兼容性不如 MPP 数据库 SQL-On-Hadoop 不擅长于交互式(interactive)的 Ad-hoc 查询, 大多通过预关联的方式来规避这个问题;另外,在并发处理方面的能 力较弱。高并发场景 MapReduce 的 SQL-On-Hadoop 系统。 4) 选择 MPP 还是 Hadoop ? HadoopMapReduce和SQL-On-Hadoop技术目前都还不够成熟, 性能和功能上都有很多待提升的空间。相比之下,MPP 数据在数 据处理上更加 SMART,要填平或缩小与 MPP 数据库之间的性能 和功能上的差距,Hadoop 还有很长的一段路要走。就目前来看, 我们认为这两个系统都有其适用的场景。 Greenplum 精粹文集 23 3. 可扩展 该客户单个 Greenplum 集群,从最初的 50 节点,经历了两次扩展, 最终扩展到了上百节点。每次扩容,数据库的数据容量不但得到提升, 业务人员更能直观的感受到相同模型运行速度得到提升,尤其是大机 构的大模型更为明显。 第一次扩容是从 50 节点到 74 节点,完成 30TB 业务数据的导出、传输、 导入,以及 70TB 左右的索引数据创建,实际停机时间大约0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 6 版本都带来了极大 的性能和稳定性的提升。 声明 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部分内容都经过编者重新考量和实测验证,有些观点与官方手册有 出入,仅代表编者本人观点 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 13 - Master 的连接数是有限的,缺省值为 250 个,如果要大规模提升连接的可用数 量,可以配置使用 GP 自带的 pgbouncer 连接池,这对于一些应用场景会很有帮助, 例如 SAS 等软件连接 GP 时,由于这些软件自身无法严格限制连接数,pgbouncer 会 memory_spill_ratio 参数的值来设置当前事 务的 MEMORY_SPILL_RATIO 属性。 官方文档上说,对于低内存消耗型的查询来说,设置如下的参数可以提升查询的性 能,编者觉得,有待验证,至少,编者认为,这种操作可能没有特别显著的性能提升。 =# SET memory_spill_ratio=0; =# SET statement_mem='10 MB'; 使用专享内存还是使用全局共享内存0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案进行全表扫 描,历时超过20分钟。 结论:如果采用DWA替代现有环境,获得超过120倍的性能提升。 • 真实应用测试 – DWA测试结果:完成应用的全过程仅耗时48分钟。 – 客户投产环境:客户11月份月度处理时,完成本项任务需要65小时。 结论:如果采用DWA替代现有环境,获得超过80倍的性能提升。 案例分享:阿里巴巴 • 业务用例 • 通过分析用户的网络点击日志,进行产品关联分析,让客户可以 分析 结算 系统 呼叫 中心 其他 航线 分析 结算 系统 呼叫 中心 BO报表响应速度 BO报表响应速度测试: 报表名 Oracle查 询时长 Greenplu m查询时 长 GP提升倍数 备注 报表一: 查询09年1月份数据 无法响应 查询 30秒 N 基于查询 语句 SQL1 报表一: 查询09年5月份数据 49秒 N 同上 报表二: 查询09年1月份数据 40秒 N 速度。 测试方法:针对数据加载测试中的三张大表,模拟生产业务需求进行复杂SQL语句查 询(参看附录)。 测试结果如下面两表: 语句名 Oracle查 询时长 Greenplu m查询时 长 GP提升倍数 备注 SQL1 1800秒+ 33.16秒 54X+ SQL2 A 1800秒+ 17.49秒 105X+ SQL2 B 1800秒+ 15.97秒 112X+ 案例分享:深发展银行0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台■ 3.5倍的TPS提升 ■ master CPU使用率大幅提高 ■ TPS随着master CPU核数增加同 步提高 ■ 22万 TPS (192核单机部署 ,master+18 segments) 34 Pivotal Confidential–Internal Use Only TPC-B基准测试:UPDATE ■ 得益于并发更改特性 ■ 70倍的TPS提升 35 Pivotal Confidential–Internal Use Only TPC-B基准测试:INSERT ■ 峰值TPS提升3.6倍 36 Pivotal Confidential–Internal Use Only TPC-B基准测试:多语句 表‘SALES’ 表‘SALES’ ■ 峰值TPS提升60倍 BEGIN; UPDATE pgbench_accounts SET abalance = abalance0 码力 | 52 页 | 4.48 MB | 1 年前3
Pivotal Greenplum 最佳实践分享避免过多使用列存储的原因是防止小档数过多。 • 列存储能够提升查询性能,对于更新和全字段类操作性能反而会下降 • 对于少数频繁查询的宽表,例如交易表、帐户表、客户表等采用列存储,其它表采用行存储 数据压缩: • 在金融业,行压缩的数据压缩比在1:6左右,一般采用zlib5级压缩 • 数据压缩对于高并发查询分析系统可以大幅降低IO消耗,提升并行处理、混合负载的性能 分布键使用: 建索引的方法:对于区别度高的字段,如账号、手机号码等使用B-Tree索引,对于区别度低的字段(<10000),采用 Bitmap索引; • 表关联时,一般不需要建索引,如果where条件的筛选性很强,建立索引可以让系统性能提升 • 对于大数据类系统,应避免使用PK,UI,FK,唯一性约束或参考性检查将导致性能大幅下降; • 大数量更新时,应先删除索引,更新/加载数据后再重建索引,或者采用分区交换降低对目标表的影响0 码力 | 41 页 | 1.42 MB | 1 年前3
Pivotal HVR meetup 20190816Log based CDC and Data Replication. What is HVR? 4 Key Benefits of Using HVR for your Business 提升业务洞察力 关键业务连续性 提高效率 降低风险 5 Geographical Distribution Real-Time Analytics Data Lake Data Warehouse 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时,天天拍车也正在布局二手车金融、二手车保卖等创新业务。截 至目前,天天拍车已在全国超过50个多城市设立线下交易服务中心。0 码力 | 31 页 | 2.19 MB | 1 年前3
Greenplum机器学习⼯具集和案例不不同的产品,侧重点不不同 MADlib Spark 算法库 易用性 需要编程 查询优化 成熟度稍差 内存和流处理 通过 Gemfire SQL 语法支持 需要提升 磁盘数据 不是核心焦点 并发性能 不是核心焦点 大数据关联 不是核心焦点 2017.thegiac.com ⽤用户案例例 1 Greenplum + MADlib Net 特征选择 模型 1 2 3 4 5 6 改进后的 in-database 流程 2017.thegiac.com 数据编辑/整理理 之前 之后 性能提升 ● 181 ⾏行行代码 ● 75 分钟 ● 116 ⾏行行代码 ● 8 分钟 9.35x 特征编辑 ● 439 特征 ● 4,517 ⾏行行代码 ●0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商能得到了改善(和全表顺序扫描相⽐)。可以使⽤ EXPLAIN 命令来确认索引是否被使⽤。 创建索引时,需要注意下⾯的问题点: 1. 查询特点:索引对于查询只返回单条记录或者较少的数据集时,性能提升明显。 2. 压缩表:对于压缩的 append 表来说,对于返回⼀部分数据的查询来说性能也能得到提⾼。对于压缩的数据,使⽤索引访问⽅法时,只有需要的数据才会被解压缩。 3. 避免在经常改变的列上创0 码力 | 206 页 | 5.35 MB | 1 年前3
共 10 条
- 1













