Greenplum 新一代数据管理和数据分析解决方案/数据仓库 进行了优化,解决了所有数据流瓶颈问题 Greenplum数据引擎 全球最强大的分析数据仓库 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、 ELT、文本挖掘、统计 运算提供统一的平台 • 可以使用SQL、 MapReduce、R等在 所有层次上对任何数 据进行并行分析 19 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术(由Google普及)的产品 • 采用新的编程模型,在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 MapReduce 180万美元 20 TB 20 kW, 8个机架 2000万美元 40 总结 • Greenplum正在将强大的并行计算能力融入到大 规模数据仓库和分析领域 • 世界级的行业团队进行高性能计算和数据库系统的 前沿开发工作 • 为全球很多最大规模的数据仓库提供提供推动力 • 最先将SQL和Map-Reduce的功能整合到统一的数 据处理框架中 • 可以帮助企业采集所有数据,并在竞争中获得出色0 码力 | 45 页 | 2.07 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 GreenplumGreenplum 自 2006 年发布第一个版本以来,就以精巧架构、简单易用、运行稳定、优异性能、环境适应性强在 MPP 数据库领域独占鳌头,基于 Shared Nothing 的 MPP 高性能系统架构,Greenplum 可以将 PB 级的数据仓库负 载分解,并使用所有的系统资源并行处理单个查询。同时 Greenplum 具备数据库 ACID 特性,运行符合 ANSI 标准 的 SQ 管理各种规模的数据容量,数据量从数 GB 到数 PB 不等。 Greenplum 环境适用性强与其开放性、真正开源、社区活跃有密不可分的关系,一方面 Greenplum 能够独立于专用 硬件加速提供高性能的纯软件数据平台,无需专用硬件,另外一方面包括核心代码在内的全部开源,社区人员或客户 可最大化自由利用和借鉴 Greenplum 的优秀功能的同时,又可以反哺及影响总体产品研发方向,可以加快产品创新, 白皮书 9 白皮书 | 9 源代码在各种平台进行编译使用。作为能够独立于专用硬件加速提供高性能的纯软件数据平台,Greenplum 可根据 客户需求在任何位置运行。借助这种“不受限于基础架构”的方法,可以在本地不同的操作系统、不同的芯片环境或多 云环境(私有云或公有云)中部署同一类型的分0 码力 | 17 页 | 2.04 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密GPDB TDE GPDB透明加密 加密目标 • 表数据 • 预写日志数据 • 主从节点所有数据 • 索引及其他表辅助数据 • 磁盘缓存文件 设计目标 • 对用户和数据库透明 • 高性能,使用CPU加密指令集 • 内核原生 GPDB透明加密 加密 Planer TDE key Data (plain) Data (Encrypted) Executeor GPDB透明加密 (Decrypted) Cached Data (Encrypted) Object key (Encrypted) Data (Encrypted) Data (Decrypted) 总结 总结 • 高性能 • KMS保证秘钥安全性 • 对用户查询和数据库完全透明 • GPDB原生 • 不改变现有工作逻辑 对于现有方案的优势 pgcypto的问题 一款开源的HTAP数据库: • MPP架构0 码力 | 48 页 | 10.19 MB | 1 年前3
Greenplum 精粹文集公司及国内某 知名电商的大数据平台);而有些则直接绕开了 Mapreduce 另起 炉灶,如 Impala、hawq 采用借鉴 MPP 计算思想来做查询优化和 内存数据 Pipeline 计算,以此来提高性能。 虽然 SQL-On-Hadoop 比原始的 Mapreduce 虽然在易用上有所提 高,但在 SQL 成熟度和关系分析上目前还与 MPP 数据库有较大差 距。 上述系统,除了 HAWQ 外,对 大多通过预关联的方式来规避这个问题;另外,在并发处理方面的能 力较弱。高并发场景下,需要控制计算请求的并发度,避免资源过载 导致的稳定性问题和性能下降问题。 3) 架构灵活性的对比 前面提到,为保证数据的高性能计算,MPP 数据库节点和数据之 间是紧耦合的,相反,Hadoop 的节点和数据是没有耦合关系的。 这就决定了 Hadoop 的架构更加灵活,存储节点和计算节点的无关 性,这体现在以下 2 个方面: 内部表,但比 Hadoop 自身的 HIVE 要高很多(在 某金融客户的测试结果,比 HIVE 高 8 倍左右),因此可以考虑在项 目中同时部署 MPP 数据库和 Hadoop,MPP 用于交互式高性能分析, Hadoop 用于数据 Staging、MPP 的数据备份或一些 ETL batch 的数据 清洗任务,两者相辅相成,在各自最擅长的场景中发挥其特性和优势。 Big Date2.indd0 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal HVR meetup 20190816Real-Time Analytics Data Lake Data Warehouse Cloud HVR 连续数据集成技术 Migrations Disaster Recovery 6 扩展性—高性能架构 7 • 创建并装载目标表 • 用于实时复制的初始化 • 也可以单独使用 • 可以被定义为任务,定时调度执行 异构平台环境下初始化同步 8 • 非侵入式技术对生产没有影响 • 基于日志捕获技术的实时性非常高0 码力 | 31 页 | 2.19 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台白皮书 5 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 作为能够独立于专用硬件加速提供高性能的纯软件数据平台,Greenplum 可根据客户需求在任何位置运行。借助这种“不 受限于基础架构”的方法,可以在本地或多云环境(私有云或公有云)中部署同一类型的分析数据库。 无论在商业化的 Pivotal0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum Database 管理员指南 6.2.1e管理员使用多个文件系统来存储数据库对 象,从而可以决定如何更好的利用他们的物理储存设备。表空间的存在有具体的意义, 例如在访问频度不同的数据库对象上使用不同性能的磁盘,例如,将经常使用的表放在 高性能磁盘的文件系统上(例如SSD固态盘),而将其他表放在普通硬盘的文件系统上。 一个表空间,在GP集群中,对应的是一组分布式的操作系统目录,在每个Instance 上都有一个目录,这些目录的 对于性能很高的文件服务器来说,在多个端口(PORT)上启动gpfdist服务很有必 要,毕竟一个gpfdist服务使用的CPU资源有限,当需要处理压缩、多并发等场景时, 使用多个gpfdist服务可以提升高性能文件服务器的资源利用。 编者认为,分隔符对数据导出到gpfdist的性能几乎不会有任何影响,实际上, 对可写外部表性能影响最大的是,Primary每次向gpfdist服务发送的数据包的尺寸, Raid卡的要求是以 性能为导向的,比如使用NVMe,单盘的连续读写性能可以轻松超过1GB/S,甚至有些 可以到3GB/S左右,此时如果有多块NVMe,目前的常规Raid卡性能可能都无法满足多 块高性能NVMe磁盘的Raid 5策略,不仅如此,目前,还很少有Raid卡能直接支持NVMe 协议,如果用SATA口转接NVMe磁盘的话,还不如直接少花点钱用SATA口的SSD。如果 不那么在乎磁盘失效带来0 码力 | 416 页 | 6.08 MB | 1 年前3
共 7 条
- 1













