Greenplum on Kubernetes
容器化MPP数据库Greenplum on Kubernetes 容器化MPP数据库 AGENDA 云数据库背景 云数据库实现方案 Greenplum on Kubernetes Greenplum Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云 云数据库实现方案 ● 全新数据库 ○ Snowflake ● 原有数据库架构升级 ○ Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Apache Spark ○ CockroachDB ○ Apache HAWQ 云数据库存储方案 ● 块存储 ○ 文件系统接口 ● 对象存储 ○ Segment Instance Segment 5 (Mirror) 容器化Greenplum ? + = 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联 ○ 本机网络 ○ 跨机网络 ● 容器化Greenplum部署策略 ○ Master部署策略 ○ Primary0 码力 | 33 页 | 1.93 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum........................................................................................... 11 利用容器实现安全分析 ............................................................................................ Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点, 同时介绍了 Greenplum 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原则,用全新的HTAP核心设计满足实时处理业务需求。在此也为所有为Greenplum on openEuler 成功测试运行所做努力贡献的人员表示感谢! openEuler 也是一个技术孵化器。通过每半年发布一次的创新版,快速集成 openEuler 以及其他社区的最新技术成 果,将社区验证成熟的特性逐步回合到发行版中。这些新特性以单个开源项目的方式存在于社区,方便开发者获得源代 码,也方便其他开源社区使用。 社区中的最新技术成果持续合入发行版,发行版通过用户反馈反哺技术,激发社区创新活力,从而不断孵化新技术。 发行版平台和技术孵化器互相促进、互相推动、牵引版本持续演进。0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 介绍基于 MPP(大规模并行处理)架构构建,具有良好的弹性和线性扩展能力,并内置 并行存储、并行通讯、并行计算和优化技术。同时,Greenplum 还兼容 SQL 标准,具备强大、 高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 、私有云、公 有云均可部署。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定, 从而允许客户灵活选择最适合的方案,降低未来的迁移代价,而开发、运维人员无需要学 习新的数据库处理技术,人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台:支持各种数据源,包括 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 支持扩展(Extension)、自定义类型和函数、PXF 和外部表技术。可以使用多种语言实现用户自定义函数和聚集,包括 PL/Python、PL/R、 P0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum 精粹文集互联网行业经过之前近 10 年的由慢到快的发展,累积了大量信息和数 据,数据在爆发式增长,这些海量数据急需新的计算方式,需要一场 计算方式的革命。 传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也 难于满足数据计算性能指标,传统主机的 Scale-up 模式遇到了瓶颈, SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 1 16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 行工作、负责数据分布、Pipeline 计算、镜像复制、健康探测等等诸 多任务。 在 Greenplum 开源以前,据说一些厂商也有开发 MPP 数据库的打算, 其中最难的部分就是在 Interconnect 上遇到了障碍,可见这项技术的 关键性。 Greenplum 集群架构 Big Date2.indd 3 16-11-22 下午3:38 4 2. Greenplum 为什么选择 Postgreeql 做轮子0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1Greenplum 官方微信公众号和加入官方社区技术讨论群: ©2020 Esena Chen(陈淼 miaochen@mail.ustc.edu.cn) 编者工作十几年,先后供职于民企,国企,外企,截止目前,已从事 Greenplum 技术工作 10 余年,10 余年来,专注在 Greenplum 和相关技术领域,主要工作职责是 售后支持,帮助我们的 售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 Greenplum 的 成长,见证了 继续运营。近年来,Greenplum 在国内建立了一个较大规模的研发团队,越来越多的承担更重要的研发任务,包括 PostgreSQL 的版本合并等,从而,可以为国内商业用户提供更专业和更优质的本地 化服务,用户遇到问题,反馈给专业技术支持人员,或者专业售后服务团队,他们会同 用户一起排查和解决问题,如果有需要,还会保持与研发的持续沟通,虽然以前也是这 种工作模式,但由于时区和语言文化等诸多差异,沟通链路较长,时间较久,研发的本 地化,使得沟通的效率大大提高。0 码力 | 416 页 | 6.08 MB | 1 年前3
PostgreSQL和Greenplum 数据库故障排查2018年PostgreSQL中国技术大会 PostgreSQL和Greenplum 数据库故障排查 赵振平 zzp@taryartar.com 北京太阳塔信息科技有限责任公司 2018年PostgreSQL中国技术大会 自我介绍 微信号:laohouzi999 2018年PostgreSQL中国技术大会 • 赵振平,太阳塔技术总监 • 电子工业出版社签约作家 • 腾讯最具价值专家(TVP) 贵州省省管专家 • 国家首批大数据高级职称 • 出版了技术专著《Oracle数据库精讲与疑难解析》 • 出版了技术专著《成功之路:Oracle 11g学习笔记》 • 出版了技术专著《IT架构实录》 微信号:laohouzi999 2018年PostgreSQL中国技术大会 微信号:laohouzi999 2018年PostgreSQL中国技术大会 PG故障排查 微信号:laohouzi999 微信号:laohouzi999 2018年PostgreSQL中国技术大会 微信号:laohouzi999 1.安装时候的问题排查 2018年PostgreSQL中国技术大会 微信号:laohouzi999 1)关闭防火墙 service iptables stop service iptables status chkconfig --list iptables chkconfig --level 01234560 码力 | 84 页 | 12.61 MB | 1 年前3
Pivotal HVR meetup 201908161 2 • 中国科学技术大学计算机科学学士 • 上海交通大学MBA • 20年+IT从业经验, 专注于数据库技术领域 • 自2003年始从事数据库实时复制技术的解决方案 • 2013年至2015年在SAP 担任大数据和BI解决方案 资深技术顾问 • 2015年加入HVR中国公司担任技术总监 • 微信号: gu9060 个人介绍 3 HVR moves high volumes Warehouse Cloud HVR 连续数据集成技术 Migrations Disaster Recovery 6 扩展性—高性能架构 7 • 创建并装载目标表 • 用于实时复制的初始化 • 也可以单独使用 • 可以被定义为任务,定时调度执行 异构平台环境下初始化同步 8 • 非侵入式技术对生产没有影响 • 基于日志捕获技术的实时性非常高 • 支持从过去的某一指定时间开始捕获 支持从过去的某一指定时间开始捕获 • 条件过滤 • 支持触发器捕获技术作为补充 基于数据库事务日志的变化数据捕获 9 • 避免人为错误 • 在迁移结束前校验数据 • 支持异构 异构平台间数据校验域修复 10 内置监控与报警 • 实时监控HVR进程 • 自动告警 • 与第三方企业监控平台集成 • 丰富的统计报表 LDAP authenticated user; if that’s not0 码力 | 31 页 | 2.19 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘 过去Google™ 曾经用来实现信息搜索功能的技术, 现在被Greenplum用于数据仓库 现在的解决方案 12 Greenplum愿景:企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 个方面同时达到最满意的效果: 供程序员使用的MapReduce以 及供数据库管理使用的 SQL。” Monash Research 的Curt Monash 分析师褒奖 “ Greenplum正在通过新式技术来 推动并行数据库的发展,从而满足互 联网级企业的需求。” ZDNet的Dana Gardner Magic Quadrant 2007 (”远见者象限”) 最佳集群解决方案 Global 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术(由Google普及)的产品 • 采用新的编程模型,在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 MapReduce Greenplum MapReduce的优势0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum机器学习⼯具集和案例2017.thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com 内循环函数 (实现机器器学习逻辑) Python SQL C++ MADlib 架构 2017.thegiac.com • 是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google 创办人 Larry Page来命名 Image from h_ps://en.wikipedia.org/wiki/PageRank 示例例 ⽹网⻚页浏览历史 - 地理理信息数据 - 业务部⻔门信息 - ⽹网站⽤用户信息 • TB 级别数据 • 1000+ 特征 平台 建模⼯工具 PL/pgSQL 数据和技术预览 2017.thegiac.com 数据整理理 数据准备 信息价值和证据权 重 成对相关性 删除⾼高度相关变量量 逻辑回归 计算 KS 分值 模型验证 ⼿手动预测0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum上云与优化未来的规划 2016Postgres中国用户大会 ApsaraDB for GP的定位 2016Postgres中国用户大会 ApsaraDB for GP的定位 GP的优势? 与其他技术的对比? 为什么上云? 2016Postgres中国用户大会 ApsaraDB for GP的定位 ApsaraDB for GP = 简单、高效解决大数据分析需求 MPP + 列存压缩0 码力 | 26 页 | 1.13 MB | 1 年前3
共 13 条
- 1
- 2













