扩展模块 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 精粹文集

式，需要一场计算方式的革命。传统的主机计算模式在海量数据面前，除了造价昂贵外，在技术上也难于满足数据计算性能指标，传统主机的 Scale-up 模式遇到了瓶颈， SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于 GFS 分布式文件系统，另外一篇由此，业界认识到对于海量数据需要一种新的计算模式来支持，这种模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。当时，开放的X86服务器技术已经能很好的支持商用，借助高速网络（当时是千兆以太网）组建的 X86 集群在整体上提供的计算能力已大幅高于传统 SMP 主机，并且成本很低，横向的扩展性还可带来系统良好的成长性。问题来了，在 X86 集群上实现自动的计算的功能也无能为力，就其因估计还是受到 mysql 在这方面限制。 3) 扩展性方面，Postgresql 比 mysql 也要出色许多，Postgres 天生就是为扩展而生的，你可以在 PG 中用 Python、C、Perl、TCL、 PLSQL 等等语言来扩展功能，在后续章节中，我将展现这种扩展是如何的方便，另外，开发新的功能模块、新的数据类型、新的索引类型等等非常方便，只要按照 API

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例使⽤案例案例⼀利⽤ logstash+Kafka+UDW 对⽇志数据分析案例⼆基于UDW实现⽹络流分析 PXF 扩展扩展配置 PXF 服务创建 EXTENSION 读写 HDFS ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 4/206 194 5/206 概览概览产品架构快速上⼿操作指南访问UDW数据仓库数据导⼊开发指南 udw优化指南表膨胀 UDW中Json类型接⼊第三⽅ BI ⼯具 UDW 使⽤案例 Pxf 扩展功能迁移数据使⽤ pg_dump 使⽤ pxf 外部表 FAQs 数据仓库价格概览 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 lum开发的⼤规模并发、完全托管的PB级数据仓库服务。UDW可以通过SQL让数据分析更简单、⾼效，为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务分析能⼒。⽀持MADlib扩展，客⼾可以在udw上使⽤MADlib的扩展功能，从⽽让机器学习变得简单，⽀持PostGIS，可以⽅便的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。云数据仓库产品架构云数据仓库产品架构云数据库仓库

0 码力 | 206 页 | 5.35 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

在互联网公司的实践与思考赵飞祥 2 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系四 Greenplum扩展规划六 3 数据仓库体系架构业务数据与数据使用归类时间维度：过去 - 现在 - 未来（数据的生命周期） • “现在”的数据 —— OLTP • “过去”的数据 —— OLAP • 具备海量的数据存储和计算性能 9 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系四 Greenplum扩展规划六 10 greenplum体系架构 postgresql体系结构 11 greenplum体系架构 postgresql体系结构 • pg结构组成 Ø 连接关系系统 Ø 编译执行系统外部访问 15 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系四 Greenplum扩展规划六 16 Greenplum现状说明 Greenplum集群现状概述 • 三大Greenplum集群体系 Ø 公司IDC_01机房Greenplum体系 Ø 公司IDC_02机房Greenplum体系

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

提供强有力的分析改进。通过自动对数据进行分区和并行运行查询，它让服务器群集能够以单一数据超级计算机的方式运行，且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分析扩展功能支持 ANSI SQL，并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够管理各种规模的数据卷，数据量从数 GB 到数 PB 不等。 pivotal.io/cn 白皮书 4 © Copyright org 网站下载和编译的版本以及通过 Pivotal Network 分发的打包版本将具有相同的内核（只有个别微小差别）。这是两年来致力于与 PostgreSQL 8.3.23 集成的成果，目的在于扩展和融入以 Greenplum 为中心的生态系统和社区。为了更好地贴合 PostgreSQL 社区的模式，他们对代码库进行了重构，这样一来，便可以更轻松地从最新版本（未来的 PostgreSQL 9 中做高级分析，无论是提供将应用逻辑向下推送至数据所在位置的方法，执行分析功能，还是以大规模并行方式构建数据模型，都可以实现。Greenplum 5 支持适用于数据挖掘和数据科学工作的最全面、最先进的分析程序包和扩展。 Greenplum 5 还针对最受欢迎的 Python 和 R 语言算法库提供简单易用的安装程序。 • Greenplum 5 中支持的 Python 语言算法库和程序包有：Tensorf

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum 排序算法

bool delayEagerFree 某个Segment的排序节点输出最后一条元组后是否可以提前释放内存 36 ● ExecSort：从下层Outer节点读取所有元组，并传递给tuplesort模块进行排序排序节点 37 TupleSort是排序节点的核心，算法主要阶段： ● 第一阶段初始化TupleSort，通过调用函数tuplesort_begin_common，生成 Tuple Greenplum站点的每篇文章都以 https://cn.greenplum.org/为前缀。对这些字符串进行排序的时候，多键排序优势明显。多键排序 40 ● 多键排序算法：快速排序的扩展 ● 假设待排序数组为a，数组元素是长度为K的字符串，多键排序 41 多键排序 42 ● Group Aggregation ● Merge Join ● Distinct Aggregation

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

欺诈分析客户流失分析响应时间流量分析产品关联/捆绑零售存储运营分析客户忠诚度计划协作规划和预估预防亏损优化供应链当今的数据仓库方案基于硬件专有，昂贵不可扩展针对OLTP进行了优化主流 10 数据库行业所面临的挑战 0 1 2 3 4 5 6 7 8 9 10 1995 2000 2005 2010 新一代数据库的要求海量规模 • 高性价比 • 高效率数据库管理系统（DBMS）的规模/容量 11 需要采用一种新的方法 •“一切皆可商用”：商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘过去Google™ 曾经用来实现信息搜索功能的技术，现在被Greenplum用于数据仓库现在的解决方案灵活的扩展和配置降低了投资的平均风险源文件源数据源数据源文件数据仓库和分析应用程序 Greenplum数据架构商用硬件集群分析数据市场企业数据仓库企业数据集合：主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 • 确保关键任务的可靠性 • 最出色的性能 • 高度灵活性 • 逐步扩展计算能力

0 码力 | 45 页 | 2.07 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

白皮书 6 白皮书 | 6 openEuler 覆盖全场景的创新平台 openEuler 已支持 X86、Arm、RISC-V 多处理器架构，未来还会扩展 PowerPC、SW64 等更多芯片架构支持，持续完善多样化算力生态体验。 openEuler 社区面向场景化的 SIG 不断组建，推动 openEuler 应用边界从最初的服务器场景，逐步拓展到云计算、边内存回收算法保障在线业务安全可靠运行。 • 新文件系统 EulerFS：面向非易失性内存的新文件系统，采用软更新、目录双视图等技术减少文件元数据同步时间，提升文件读写性能。 • 内存分级扩展 etMem：新增用户态 swap 功能，策略配置淘汰的冷内存交换到用户态存储，用户无感知，性能优于内核态 swap。 2. 夯实云化基座容器操作系统 KubeOS：云原生场景，实现具备数据库 ACID 特性，运行符合 ANSI 标准的 SQL，可以让服务器群集能够以单一数据超级计算机的方式运行，且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分析扩展功能支持 ANSI SQL，并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够管理各种规模的数据容量，数据量从数 GB 到数 PB 不等。 Greenplum 环境适用性强与其开放性、真正开源、社区活跃有密不可分的关系，一方面

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

Only GPDB：为大数据存储、计算、挖掘而设计标准 SQL 数据库：ANSI SQL 2008 标准，OLAP，JDBC/ODBC 支持ACID、分布式事务分布式数据库：线性扩展，支持上百物理节点企业级数据库：全球大客户超过 1000+ 安装集群百万行源代码，超过10年的全球研发投入开源数据库(greenplum.org)，良性生态系统 5 Pivotal Scatter/Gather 流处理在线系统扩展任务管理服务加载 & 数据联邦高速数据加载近实时数据加载任意系统数据访问存储 & 数据访问混合存储引擎（行存&列存）多种压缩，多级分区表索引（B树，位图，GiST）安全性语言支持标准SQL支持，SQL 2003 OLAP扩展支持 MapReduce 扩展编程语言 (Python,R, Java, 14 Pivotal Confidential–Inter nal Use Only 大规模并行数据加载 • 高速数据导入和导出 – 主节点不是瓶颈 – 10+ TB/小时/Rack – 线性扩展 • 低延迟 – 加载后立刻可用 – 不需要中间存储 – 不需要额外数据处理 • 导入/导出到&从: – 文件系统 – 任意 ETL 产品 – Hadoop 发行版外部数据源 Interconnect

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

、Ka,a • 各种数据格式：结构化、半结构化（JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展：PL/X、Extension、PXF、外部表机制 • 完善的标准支持：SQL、JDBC、ODBC • 集成数据平台：BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码，持续大力投入 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 ● 机器器学习 ● 图形分析 ● 统计分析 MPP系统上的可扩展应⽤用 Apache上的开源项⽬目 ● 发布了了 6 个版本 ● Apache 顶级项⽬目 Pivotal Greenplum k-Nearest Neighbors 成熟的数据科学学习库 2017.thegiac.com • 更好的并行度 • 算法充分利用 MPP 架构实现并行 • 更好的可扩展性 • 算法随着数据扩充而线性扩展 • 更高的预测精准度 • 适用更多数据，而不是抽样 • 顶级 ASF 开源项目 • 社区驱动开发模式 MADlib 特性 2017.thegiac.com

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum 介绍

全球排名第三，实时分析领域全球排名并列第四。Greenplum 是两个领域中排名前十的产品中的唯一一款开源产品。 Greenplum 基于 MPP（大规模并行处理）架构构建，具有良好的弹性和线性扩展能力，并内置并行存储、并行通讯、并行计算和优化技术。同时，Greenplum 还兼容 SQL 标准，具备强大、高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力，可部署于企譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台：Greenplum 具有强大的内核技术，包括数据水平分布、并行查询执行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台：支持扩展（Extension）、自定义类型和函数、PXF 和外部表技术。可以使用多种语言实现用户自定义函数和聚集，包括 PL/Python、PL/R、

0 码力 | 3 页 | 220.42 KB | 1 年前
3

共 17 条前往

页

分类

语言

格式