Greenplum 精粹文集年的由慢到快的发展,累积了大量信息和数 据,数据在爆发式增长,这些海量数据急需新的计算方式,需要一场 计算方式的革命。 传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也 难于满足数据计算性能指标,传统主机的 Scale-up 模式遇到了瓶颈, SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google MPP 数据库都不擅长做 OLTP 交易系统,所谓交易系统,就是高 频的交易型小规模数据插入、修改、删除,每次事务处理的数据量不大, 但每秒钟都会发生几十次甚至几百次以上交易型事务,这类系统的衡 量指标是 TPS,适用的系统是 OLTP 数据库或类似 GemFire 的内存数 据库。 5. Greenplum MPP 与 Hadoop MPP 和 Hadoop 都是为了解决大规模数据的并行计算而出现的技术, 语言是专 门为统计和数据分析开发的语言,各种功能和函数琳琅满目,SQL 语言不仅适合开发人员,也适用于分析业务人员,大幅简化了数据 的操作和交互过程。 而对 MapReduce 编程明显是困难的,在原生的 Mapreduce 开发 框架基础上的开发,需要技术人员谙熟于 JAVA 开发和并行原理, 不仅业务分析人员无法使用,甚至技术人员也难以学习和操控。为 了解决易用性的问题,近年来 SQL-0N-HADOOP0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1作,用户可以像使用一个普通的单机数据库那样,进行访问和执行 SQL 操作。其中 Master 是整个系统的访问入口,负责处理客户端的连接和 SQL 命令、协调系统中的 其他实例协同工作,计算实例负责管理和处理具体的业务数据,并将处理结果反馈给 Master。 这一章节介绍组成 GP 数据库系统的组件及如何协同工作: 管理节点:Master 计算实例:Instance 管理节点:Master Master 作为 GP 的访问入口,主要负责处理客户端连接的访问以及用户提交的 SQL 语句的解析、生成执行计划、优化执行计划等。Master 不存储业务数据,只存储 用于维持系统运行的全局信息,比如,对象定义信息,统计信息等,Master 非常重要, 如果 Master 丢失,即便是原厂专业技术支持,也不能保证恢复所有信息。 Master目 版本和 6 版本的适配和改造,主要服务商业付费用户。 Master 上存储着全局系统表(Global System Catalog)(包含数据库系统自 身元数据的数据表),但不存储任何业务数据,业务数据只存储在 Instance 上。 Master 负责客户端的登录认证、SQL 命令接收并生成并行执行计划、对执行计划进行 优化、在 Instance 之间分发执行计划、整合 Instance0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商Warehouse)是⼤规模并⾏处理数据仓库产品,基于开源的Greenplum开发的⼤规模并发、完全托管的PB级数据仓库服务。UDW可以通过SQL让数据分析更简 单、⾼效,为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务分析能⼒。⽀持MADlib扩展,客⼾可以在udw上使⽤MADlib的扩展功能,从⽽让机器学习变得简单,⽀持PostGIS,可以⽅便 的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。 的执⾏结果并将结果返回给客⼾端 3. Compute Node: Compute Node 管理节点的计算和存储资源 每个 Compute Node 由多个 Segment 组成 Segment 负责业务数据的存储、⽤⼾ SQL 的执⾏ ⾼可⽤ ⾼可⽤ 产品架构 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 8/206 如上图所⽰: 1 20%E8%AE%BF%E9%97%AE%20udw.pdf 2、数据库管理 、数据库管理 当你成功连接上数据库后,你可以创建你的第⼀个数据库(但这不是必须的,你也使⽤默认创建的数据库来作为你的业务数据库)。下⾯的操作以 psql ⽅式连接到 udw 为例。 2.1 创建数据库 创建数据库 create database product; 2.2 查看所有数据库 查看所有数据库 “l”命令查看0 码力 | 206 页 | 5.35 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 分实时交互操作 Ø 以对账业务为主,统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数 Ø 以重点业务线、活动数据、非OLTP业务数据的任务计算为主 • 公司IDC_03机房Greenplum体系 Ø 数据来源来源为OTLP库库,针对大数据量传输和计算,采用T+1方式 Ø 以核心业务的数据计算、统计为主 180 码力 | 43 页 | 9.66 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum统平台架构、创新性及核心特点, 同时介绍了 Greenplum 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原则,用全新的HTAP核心设计满足实时处理业务需求。在此也为所有为Greenplum on openEuler 成功测试运行所做努力贡献的人员表示感谢! 摘要 Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源社区强强联手,不仅是双方业务用户所期盼的,同时也是 Greenplum 社区与对中国本地开源社 区的深入合作尝试。本次合作对双方打造丰富应用生态注入了鲜活动力! 完全兼容欧拉开源操作系统的 HTAP 数据平台 白皮书 7 白皮书 | 7 1. 引领内核创新 云原生调度增强:针对云场景在线和离线业务混合部署场景,创新 CPU 调度算法保障在线业务对 CPU 的实时抢占及抖 动抑制,创新业务优先级 00M 内存回收算法保障在线业务安全可靠运行。 • 新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案据 • 将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 业务问题 • 改进定位广告 • 竞争对手 • Teradata, Oracle • FIM受众网络技术和运营部门的产品执行副总裁 Arnie Gullov-Singh 24 净数据规模 (TB) 2008年9月 2008年12月 客户实例:Reliance Communications • 业务问题 • CDR安全合规性和分析 • 已有方案 • Oracle • 数据规模 • 20TB,每天增长400GB • 优势 • 将响应时间缩短90% “借助运行Greenplum数据 的副总裁和主管(决策支持系统)Raj Joshi 25 响应时间 (分) 以前的数据库 客户实例: PLDT • 业务问题 CDR分析 • 竞争对手 Oracle • 数据规模 2200万用户 / 7亿次交易 • 优势 数据装载时间减少8倍,查询速度 从2小时提高到15分钟 “我们业务所面临的一个关键挑战就是要处理很大的数据量。 Greenplum技术可以帮助我们更好地了 解我们的客户及其需求。”0 码力 | 45 页 | 2.07 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 运行模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 管理模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 管理模式 GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 GPDB为单独数据库软件 • 非一体机 • 缺少对硬件和系统的控制 潜在风险(一) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 需要登录到系统进行运维 •0 码力 | 48 页 | 10.19 MB | 1 年前3
基于 Greenplum 打造SaaS化电商服务平台中 间 库 商 品 库 核 心 库 辅 助 库 账 号 库 店 铺 库 其 他 库 业务系统 数据仓库 G P 1 G P 2 G P 2 5 交 换 库 •业务库 •分库分表 •一组五个数据库 •250组数据库+公共库 •每15到20天增加10组 •31个GP集群 •30个业务数据集群, 一个数据交换集群 •ETL处理,大部分在线 分析查询采用GP •极端复杂查询 拆分 析,有待验证 数据集市 报表 CRM 胜算 …… …… …… …… 数据仓库演变 2015 2016 2017 2018 2019 2014原始阶段 2016.4全新报表界面:梳理业务、开发报表 2016.9自建GP集群,上线工作量统计 2018.3HDB4PG 2017.1报表全面迁移至GP 2017.6集群拆分 2018.9全面切换HDB4PG 2018.6ADB储备、20190 码力 | 7 页 | 547.94 KB | 1 年前3
Pivotal HVR meetup 20190816based CDC and Data Replication. What is HVR? 4 Key Benefits of Using HVR for your Business 提升业务洞察力 关键业务连续性 提高效率 降低风险 5 Geographical Distribution Real-Time Analytics Data Lake Data Warehouse 支持广泛的异构平台间数据复制 * HVR5.6还支持z/OS,Google Cloud Storage/Big Query 13 Compare Products 天天拍车是国内领先的二手车竞拍平台,现有核心业务是二手车线上 竞拍。同时,天天拍车还提供上门检测、线上竞拍、包办手续等一站 式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时,天天拍车也正在布局二手车金融、二手车保卖等创新业务。截 至目前,天天拍车已在全国超过50个多城市设立线下交易服务中心。 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 14 Compare0 码力 | 31 页 | 2.19 MB | 1 年前3
Greenplum 介绍级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的混合负载,从而帮助客户真正打通业务-数据-洞见-业务的闭环。 目前,Greenplum 已经为国内外各行各业客户所广泛使用,支撑着全球各大行业的核心生产系统, 其涉及领域涵盖金融、保险、证券、通信、航空、物流、零售、媒体、政府、医疗、制造、能源0 码力 | 3 页 | 220.42 KB | 1 年前3
共 16 条
- 1
- 2













