完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum................................................................................. 5 openEuler 面向多样性算计算的创新 ............................................................................................ 近日,Greenplum 社区和欧拉开源社区深化合作,在欧拉开源操作系统(openEuler, 简称“欧拉”)编译测试了高级分 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点, | 5 欧拉开源操作系统 欧拉开源操作系统(openEuler, 简称“欧拉”)从服务器操作系统正式升级为面向数字基础设施的操作系统,支持服务 器、云计算、边缘计算、嵌入式等应用场景,支持多样性计算,致力于提供安全、稳定、易用的操作系统。通过为应用 提供确定性保障能力,支持 OT 领域应用及 OT 与 ICT 的融合。 欧拉开源社区通过开放的社区形式与全球的开发者共同构建一个开0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案Proprietary Legacy Scalable, Open Software-Based Commodity HW • 用户人数 • 安全度 • 查询、报告、分析的数量 • 数据的高度多样性 • 大量定制数据 • 监管要求 商务智能/数据仓库发展趋势 一切都在增长! 数据仓库工作量:数据膨胀 面临的新难题是如何处理大规模数据 过去的10年 现在 HPC 企业 SME 据流引擎 对本地磁盘进行直 接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术(由Google普及)的产品 • 采用新的编程模型,在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 MapReduce Greenplum MapReduce的优势 • 处理在任何地点存储的任何类型的数 据 • 将SQL的普遍性与MapReduce的灵 活编程模式结合起来 前沿开发工作 • 为全球很多最大规模的数据仓库提供提供推动力 • 最先将SQL和Map-Reduce的功能整合到统一的数 据处理框架中 • 可以帮助企业采集所有数据,并在竞争中获得出色 的洞察力 41 Parallel Dataflow Engine • General purpose parallel-dataflow engine natively executes SQL &0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 精粹文集X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 来 了, 在 X86 集 群 上 实 现 自 动 的 并 行 计 算, 无 论 是 后 来 的 MapReduce 计算框架还是 MPP(海量并行处理)计算框架,最终还 是需要软件来实现,Greenplum 正是在这一背景下产生的,借助于分 布式计算思想,Greenplum 已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单 判断的标准就是 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 计算的功能也无能为力,就其因估计还是受到 mysql 在这方面限制。 3) 扩展性方面,Postgresql 比 mysql 也要出色许多,Postgres 天生就 是 为 扩 展 而 生 的, 你 可 以 在 PG 中0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum机器学习⼯具集和案例适合模型应用于数据子集的场景,并行执行效率非常高 • 如果节点间数据通讯,使用 适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 ● 机器器学习 ● 图形分析 ● 统计分析 MPP系统上的可扩展应⽤用 Apache上的开源项⽬目 ● 发布了了 6 磁盘数据 不是核心焦点 并发性能 不是核心焦点 大数据关联 不是核心焦点 2017.thegiac.com ⽤用户案例例 1 Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测 模型不不够精准,需 要更更好的邮件营销 策略略 ● 现有数据分析流程 繁琐,速度慢,有 很多⼿手动步骤,易易 ⾏行行代码 ● 30 分钟 多 495 个特征,快 3.33x 信息价值 ● ~450 个变量量,~30分 钟计算结果并写⼊入 excel ● 在 GPDB 中花 58 秒计 算 ~200 个变量量的IV 13.7x/变量量 建模 ● < 50 个变量量,运⾏行行⼀一 次逻辑回归迭代需要 ~30 分钟 ● 376 个变量量,运⾏行行⼀一次 逻辑回归迭代需要0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1在选择AO表的压缩方式和级别时,需要考虑以下几点因素: CPU性能:机器需要有足够的CPU资源来压缩和解压数据。 压缩比和磁盘尺寸:既要考虑压缩比以减少数据文件的尺寸,也需要考虑CPU的能 力,因为越高级别的压缩需要消耗更多的CPU资源来压缩和解压数据。这就要求, 我们需要找到一个适中的压缩选项来兼顾压缩比和压缩解压的性能。 压缩速度:虽然说,quicklz与zlib相比,有更好的压缩解压速度,相对来说压 | 7497731 (4 rows) 支持运行长度编码 GP已支持COLUMN级别的运行长度编码(Run-length Encoding /RLE)压缩算 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 107 - 法。RLE是一种将连续重复的数据 表是否足够大?大的事实表才适合做分区。对于一张很大的表,从逻辑上把表分 成较小的分区将可以改善性能。而对于较小的表,对分区的管理和维护的开销可能 已经超过了性能的改善程度。那么对于是否选择分区这个问题来说,什么样的表算 大表,什么样的表算小表,根据编者十多年的经验来看,不能仅仅从表的尺寸或者 记录数来简单的区分,还应该结合集群规模来考虑,一般建议每个分区在每个 Instance上的数据量可以控制在100万到1000万左右的范围(落实到项目中的0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台fulSoup、lxml、Keras 和 PyMC3(Tensorflow 和 Keras 需要使用 RHEL 7 作为主机操作系统)。 • Greenplum 5 中 支 持 的 R 语 言 算 法 库 和 程 序 包 有:BH、DBI、MASS、MCMCpack、Matrix、R2jags、R6、 RColorBrewer、ROCR、RPostgreSQL、Rcpp、RcppEigen、R0 码力 | 9 页 | 690.33 KB | 1 年前3
深度揭秘Greenplum开源数据库透明加密非部门员工运维(原厂,主机厂或者合作伙伴) • 事后审计难度很大 • 服务器数据被盗(托管或云部署) 用户的问题 现有解决方案 基于操作的系统的硬盘加密 • 只能防范服务器硬盘被盗 • 对运维安全无能为力 基于pgcypto的加密 • 可以满足数据安全要求 • 非原生方案 • 问题很多 基于pgcypto的数据加密方案 pgcypto Postgresql社区提供的一款简单加密插件 •0 码力 | 48 页 | 10.19 MB | 1 年前3
Pivotal HVR meetup 20190816based CDC and Data Replication. What is HVR? 4 Key Benefits of Using HVR for your Business 提升业务洞察力 关键业务连续性 提高效率 降低风险 5 Geographical Distribution Real-Time Analytics Data Lake Data Warehouse0 码力 | 31 页 | 2.19 MB | 1 年前3
共 8 条
- 1













