Golang实现 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Brin Index主Greenplum 7中的理论与实现

Confidential │ ©2021 VMware, Inc. 目录 Brin Index On Heap AppendOnly Table Brin在AppendOnly Table上的实现性能测试 5 Confidential │ ©2021 VMware, Inc. Block Range Index 存储数据块中元组字段的最大最小值，用于过滤不符合条件的数据块 Brin在AppendOnly Table上的实现性能测试 15 Confidential │ ©2021 VMware, Inc. AoTable AppendOnly Table是一种紧凑的数据格式，适用于较少进行 Update/Delete的场景 Tuple以紧凑的方式存储在变长的Block中，所以Block在写入磁盘后不能修改，只能向后追加新的Block 为了实现并发Insert，每个AO表 table Confidential │ ©2021 VMware, Inc. 目录 Brin Index AppendOnly Table Brin在AppendOnly Table上的实现性能测试 19 Confidential │ ©2021 VMware, Inc. Revmap With AO Confidential │ ©2021 VMware, Inc

0 码力 | 32 页 | 1.04 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

用户一起排查和解决问题，如果有需要，还会保持与研发的持续沟通，虽然以前也是这种工作模式，但由于时区和语言文化等诸多差异，沟通链路较长，时间较久，研发的本地化，使得沟通的效率大大提高。 GP 是一个纯软件实现的 MPP 数据库产品，采用 Share-Nothing 架构，可管理和处理分布在多个不同主机上的大规模数据集。对于 GP 数据库来说，一个数据库集群是由多个独立的 PostgreSQL 实例构的自动故障切换，不过，已经有很多人适用工具或者脚本的形式实现了 Master 和 Standby 的自动 FailOver 效果，编者也实现了自动切换命令，当 Master 出现无法正常工作的故障时，自动激活 Standby 来接管 Master 的任务。下面的流程图，是编者实现的 Master 和 Standby 自动切换的逻辑流程图，可以供读者参考，不过，编者不方便公开实现的代码。 Greenplum Database 例如下图所示，这是一种混合循环镜像模式，每 4 台主机组成一个镜像组，每台计算主机上有 6 个 Primary，6 个 Primary 配对的 Mirror 均匀分布在另外三台机器上。编者还实现了多种镜像模式，例如，循环镜像，指定的数台主机组成一个环，每台主机上 Primary 配对的镜像都在下一台机器上，这与自带的 group 模式一致。 Greenplum Database 管理员指南

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum分布式事务和两阶段提交协议

全新的问答论坛分布式事务和两阶段提交协议 6 ● 事务实现原理和Write Ahead Logging（WAL） ● 分布式事务和两阶段提交的原理 ● Greenplum两阶段提交协议的实现 ● Greenplum两阶段提交协议的优化 Outline 7 事务的属性：ACID 属性含义数据库系统的实现 Atomic 原子性事务中的操作要么全部正确执行，要么完全不 Write Ahead Logging，分布式事务：两阶段提交协议 Consistency 一致性数据库系统必须保证事务的执行使得数据库从一个一致性状态转移到另一个一致性状态。（满足完整性约束）实现对A、I、D三个属性的支持 Isolation 隔离性多个事务并发地执行，对每个事务来说，它并不会感知系统中有其他事务在同时执行。多版本并发控制Multi-Version Concurrency Disk-Oriented DBMS Components 数据库管理系统组成图 Hector Garcia-Molina /Jeffrey D.Ullman/Jennifer Widom《数据库系统实现》查询编译器/ 优化器事务管理器 DDL编译器执行引擎日志和恢复并发控制索引/文件/ 记录管理器缓冲区管理器缓冲区锁表存储管理器存储查询计划对索引、文件和

0 码力 | 42 页 | 2.12 MB | 1 年前
3
Greenplum 6新特性: 在线扩容工具GPexpand剖析

在线扩容工具GPexpand剖析杜佳伦 (jdu@pivotal.io) 大纲 • Greenplum 集群部署 • GPExpand简介与具体用法 • Greenplum 6中GPExpand的改进与实现 Greenplum 集群部署 Greenplum 集群部署 • gp_segment_configuration 字段名描述 dbid 每个节点的唯一id content 每个pai 6中GPExpand的改进与实现 • 在线不停机 • 数据重分布优化 • 并行的优化改进与实现 • 如何做到不停机 – 增加新节点只要在gp_segment_configuration里添加新节点信息即可 – 新节点以Master为模板生成，只包含catalog，没有数据改进与实现 • 问题 – 生成模板的过程中，如果catalog被修改怎么保证一致性改进与实现 • 问题 – 一致性 ▪ 新增catalog锁 ▪ select gp_expand_lock_catalog() ▪ expand过程中申请写锁 ▪ 其他修改catalog操作时也会申请锁来实现与expand的互斥改进与实现 • 数据重分布的优化 – 扩容后，新节点没有数据，查询Plan如何做？？？ ▪ 在Greenplum 5和之前的版本里会将所有的表改成随机分布，然后再ALTER成按列分布 ▪

0 码力 | 37 页 | 1.12 MB | 1 年前
3
Greenplum 精粹文集

算，无论是后来的 MapReduce 计算框架还是 MPP（海量并行处理）计算框架，最终还是需要软件来实现，Greenplum 正是在这一背景下产生的，借助于分布式计算思想，Greenplum 实现了基于数据库的分布式数据存储和并行计算（GoogleMapReduce 实现的是基于文件的分布式数据存储和计算，我们会在后面比较这两种方法的优劣性）。话说当年 Greenplum（当时还是一个公司，创始人家门口有一棵青梅 ——greenplum，因此而得名）召集了十几位业界大咖（据说来自 google、yahoo、ibm 和 TD），说干就干，花了一年多的时间完成最初的版本设计和开发，用软件实现了在开放 X86 平台上的分布式并行计算，不依赖于任何专有硬件，达到的性能却远远超过传统高昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum ql等等），但是 Postgresql 是单实例数据库，怎么能在多个 X86 服务器上运行多个实例且实现并行计算呢？为了这，Interconnnect 大神器出现了。在那一年多的时间里，大咖们很大一部分精力都在不断的设计、优化、开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多个 Postgresql 实例的高效协同和并行计算，Interconnect 承载了并行

0 码力 | 64 页 | 2.73 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

......................................................................................... 11 利用容器实现安全分析 .............................................................................................. Edge、面向嵌入式的版本 openEuler 21.09 Embedded。 openEuler 希望与广大生态伙伴、用户、开发者一起，通过联合创新、社区共建，不断增强场景化能力，最终实现统一操作系统支持多设备，应用一次开发覆盖全场景。 openEuler 平台架构 openEuler 是覆盖全场景的创新平台，在引领内核创新，夯实云化基座的基础上，面向计算架构互联总线、存储介质 etMem：新增用户态 swap 功能，策略配置淘汰的冷内存交换到用户态存储，用户无感知，性能优于内核态 swap。 2. 夯实云化基座容器操作系统 KubeOS：云原生场景，实现 OS 容器化部署、运维，提供与业务容器一致的基于 K8S 的管理体验。 • 安全容器方案：iSulad+shimv2+StratoVirt 安全容器方案，相比传统 docker+qemu 方案，底噪和启动时间

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

⼀、 UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例使⽤案例案例⼀利⽤ logstash+Kafka+UDW 对⽇志数据分析案例⼆基于UDW实现⽹络流分析 PXF 扩展扩展配置 PXF 服务创建 EXTENSION 读写 HDFS ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud '|';" hostIP：udw访问id UserName ：访问数据的⽤⼾名 DB：数据库名称 employee：表名外部表并⾏加载数据外部表并⾏加载数据外部表并⾏加载数据是利⽤http协议实现的⼀个⽂件服务器，⽤于创建udw的外部⽂件表。使⽤外部表并⾏加载数据可以让udw的每个⼦节点并⾏的加载数据、⼤⼤的加快数据导⼊udw的速度。在加载数据的时候我们可以先创建⼀个外部表，然后通过INSERT ⽂件中的数据。使⽤⽅法请参考我们的⽂档：外部表并⾏加载数据到udw 从从hdfs加载数据加载数据为了⽅便udw和hdfs之间的数据导⼊和导出，我们提供个两种⽅案： 1. ⽤sqoop实现hdfs和udw直接的数据导⼊导出，使⽤⽅法请参考：hdfs和hive中数据导⼊导出到udw 2. 创建hdfs外部表，使⽤⽅法请参考：创建hdfs外部表从从mysql中导⼊数据中导⼊数据

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

Inc. Greenplum 分布式数据库简介 Features Confidential │ ©2021 VMware, Inc. 4 Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台，具有良好的弹性和线性拓展能力，内置并行存储、并行通信、并行计算和并行优化功能，兼容 SQL 标准。拥有独特的高效的 ORCA 优化器，具有强大、高效的 PB 并行化奠定了基础，两者结合起来可以极大的提高系统的性能。譬如在 100 个节点的集群上，每个节点仅保存总数据量的 1/100，100 个节点同时并行处理，性能会是单个配置更强节点的几十倍。 Greenplum 不仅仅实现了基本的分布式数据存储，还提供了更高级更灵活的特性，譬如多种分布策略、多级分区以及多态存储。分布式数据存储 Confidential │ ©2021 VMware, Inc. 9 Greenplum Consistent Hash)分布策略。哈希分布当增加一个新的节点时，需要对原有数据进行重新映射。一致性哈希则保证了在重新映射的过程追中，tuple 要么保留在原有节点中，要么迁移至新的节点中，从而实现最小数据迁移。 Confidential │ ©2021 VMware, Inc. 11 随机分布则采用随机的方式将数据存储到不同的节点。当不确定一张表的哈希分布键，或者是不存在合理的避免数据

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

集成分析：改进后的全新分析接口一直以来，客户都能在 Pivotal Greenplum 中做高级分析，无论是提供将应用逻辑向下推送至数据所在位置的方法，执行分析功能，还是以大规模并行方式构建数据模型，都可以实现。Greenplum 5 支持适用于数据挖掘和数据科学工作的最全面、最先进的分析程序包和扩展。 Greenplum 5 还针对最受欢迎的 Python 和 R 语言算法库提供简单易用的安装程序。起，GPORCA 将成为默认查询优化器。它能够通过并发的混合工作负载处理多种复杂查询，并可提高查询性能。2 这样一来，大型团队就可以利用高级分析和多元化工作负载并行处理多个分析用例，针对大型数据卷实现较高的分析查询性能。GPORCA 的强大之处在于能够以并行方式针对提交的 SQL 语句计算大量可能的查询计划。为了生成最快的计划，GPORCA 会计算数千种备选查询执行计划，并根据成本做出决以生成不相关的计划，这种计划只需查询一次。随后，系统将中间结果与主表结合，生成符合用户条件的结果集。借助上述及其他优化方法，经过 GPORCA 优化的 SQL 查询可实现 10 倍甚至更大幅度的速度提升。但是，也有其他一些查询（尽管数量不多）尚且无法通过 GPORCA 实现性能提升。随着 GPORCA 的功能逐渐增多，传统查询优化器能够在性能上胜出的情况将变得极为罕见。4 Greenplum资源组和Workload

0 码力 | 9 页 | 690.33 KB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

前端界面 • 7 结果数据的交互 —— OLTP，趋势分析 • 8 OLAP数据流转 —— dbsync平台 7 数据仓库体系架构数据架构示意图 8 数据仓库体系架构架构的具体技术实现 • 轻量级数据仓库 —— Inforbright – 与MySQL数据库结合，易使用，冷热分离 – 数据库归档，只能load，不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 Greenplum扩展规划整体扩展思路 • OLAP三大模块不断完善 Ø 通过dbsync程序，实现数据传输和加载优化 Ø 对于Greenplum上的架构和设计不断优化 Ø 继续建设多样化的postgresql数据集市，满足不同需求 • 优化现有业务的调度实现 Ø 时间周期的考量 Ø 并发与功能实现的权衡 Ø 增强任务可控性和可度量性 • 支持符合条件的新业务 Ø 抽象业务模型，整合使用分类新业务上线流程 • 把握三个方面，解决三个问题 Ø 确认数据来源与传输，解决原始数据从那里来的问题 Ø 确认数据如何计算，解决数据存储和计算加工的问题 Ø 确认数据集市状态，解决结果数据最终展示的问题 • 实现方式 Ø OLAP与OLTP不同，没有非常固定的方式 Ø 没有事务性工作 Ø 只有针对每个业务需求的架构新、探索性、创新性工作 41 Greenplum扩展规划现有集群功能扩展方式 • 现有集群支撑能力

0 码力 | 43 页 | 9.66 MB | 1 年前
3

共 30 条前往

页

分类

语言

格式