并行不悖- OLAP 在互联网公司的实践与思考Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 —— dbsync平台 7 数据仓库体系架构 数据架构示意图 8 数据仓库体系架构 架构的具体技术实现 • 轻量级数据仓库 —— Inforbright – 与MySQL数据库结合,易使用,冷热分离 – 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 精粹文集·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror 镜像保护机制 ·资源队列管理 ·WEB/Brower 监控 Big Date2.indd 7 16-11-22 下午3:38 8 3. Greenplum 的艺术 -- Parallel Everything 前 面 介 绍 了 Greenplum 才是计算和加载发生的场所(当然, 在 HA 方面,Greenplum 提供 Standby Master 机制进行保证)。 再进一步看,Master-Slave 架构在业界的大数据分布式计算和云计 算体系中被广泛应用,大家可以看到,现在主流分布式系统都是采 用 Master-Slave 架 构, 包 括:Hadoop FS、Hbase、MapReduce、 Storm、Mesos...... 无一例外都是 性能反而下降,就是因为新采购的机器 RAID 卡没有 cache。 Big Date2.indd 26 16-11-22 下午3:38 Greenplum 精粹文集 27 ·加强硬件的监控,所有故障中,最怕硬件半死不活的状态,曾遇到 一客户,由于硬盘发生坏道,但 RAID 卡并未将其标记为 down,导 致坏盘在读写性能非常差的情况下仍然对外提供服务,最终将整个 集群拖慢。 ·如果客户的实际应用还存在大量较高并发的小0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1....................................................................................... - 18 - 管理与监控................................................................................................... .......................................................................................... - 57 - 监控资源组状态 ............................................................................................. ......................................................................................... - 379 - 监控与维护 ...............................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案可伸缩性:从较低的万亿字节扩展到千万亿字节 – 开放式系统:在通用系统和开放源软件的基础上创建 前提条件 – 硬件:基于开放式标准硬件 – 软件:Postgres和Greenplum – 体系架构:海量并行处理体系,针对商务智能/数据仓库 进行了优化,解决了所有数据流瓶颈问题 Greenplum数据引擎 全球最强大的分析数据仓库 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 Greenplum数据引擎体系 主机 网络互连 并行查询规划和调度 区段服务器 (处理和存储) SQL 查询和 MapReduce程序 MPP (海量并行处理) “完全不共享”体系 Greenplum体系:并行数据流 21 • 通用并行数据流引擎可以通过本地方 式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完 全不共享”体系 • 可以在很多100s服务器上扩展到0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum机器学习⼯具集和案例使用Greenplum+MADlib对⼤大数据 集进⾏行行了了更更充分的分析 X 没有良好的⽤用户分类体系 ✓ 建⽴立了了两套模型对典型⽤用户进⾏行行 聚类分析,对⽤用户群体和⽤用户习惯 有了了更更深⼊入的了了解,制定相应的营 销策略略 X 不不能⾼高效监测可疑Session ✓ 建立了可疑Session实时评分体系 X 考虑转换到Teradata ✓ 决定增加Greenplum Cluster数量0 码力 | 58 页 | 1.97 MB | 1 年前3
Pivotal Greenplum 最佳实践分享vacuum,例如设置定时作业,每周对所有系统表vacuum analyze一次 • 查询视图GP_TOOLKIT.GP_BLOAT_DIAG可监控垃圾空间的膨胀系数 • REINDEX:回收索引的垃圾空间 AGE监控和管理 PostgreSQL的MVCC事务语意依赖于比较事务ID(XID)的数值: 一条带有大于当前事务的XID的插入 XID的行版本是―属于未来的‖, XID(FrozenXID)与普通的XID进行区分。 FrozenXID总是被认为比任何普通 的XID旧。 GPDB中关闭了Autovacuum(GPDB 4.2.6 UPPER) Age的监控: xid_warn_limit:500000000(5亿),AGE大于5亿自动告警 xid_stop_limit: 1000000000, AGE大于10亿停止工作,等待vacuum执行 对于大数据类系统,应避免使用PK,UI,FK,唯一性约束或参考性检查将导致性能大幅下降; • 大数量更新时,应先删除索引,更新/加载数据后再重建索引,或者采用分区交换降低对目标表的影响 临时空间的监控和管理 临时空间被无限制使用,可能导致系统空间撑爆,为了避免这种情况,建议设置以下参数 – gp_workfile_compress_algorithm zlib,设0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享GP Command Center GP Workload Manager 7 Pivotal Confidential–Inter nal Use Only MPP(大规模并行处理)无共享体系架构 从主节点 … 主节点 SQL • 主节点和从主节点,主节点负责协调整个集群 • 一个数据节点可以配置多个节点实例(Segment Instances) • 节点实例并行处理查询(SQL)0 码力 | 44 页 | 8.35 MB | 1 年前3
Pivotal HVR meetup 20190816支持触发器捕获技术作为补充 基于数据库事务日志的变化数据捕获 9 • 避免人为错误 • 在迁移结束前校验数据 • 支持异构 异构平台间数据校验域修复 10 内置监控与报警 • 实时监控HVR进程 • 自动告警 • 与第三方企业监控平台集成 • 丰富的统计报表 LDAP authenticated user; if that’s not configured just OS 对于增量备份可以支持准实时的同步也可以支持延时同步 ➢ 同步软件不会对源库造成负载上升的问题 ➢ 同步中断后能够记录中断点,在下次同步时可以自动从中断点开始继续同步数据 ➢ 能够提供对同步组件的监控 ➢ 操作简单,运维效率高 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 15 Compare Products 参考:https://mp0 码力 | 31 页 | 2.19 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum易用的操作系统。通过为应用 提供确定性保障能力,支持 OT 领域应用及 OT 与 ICT 的融合。 欧拉开源社区通过开放的社区形式与全球的开发者共同构建一个开放、多元和架构包容的软件生态体系,孵化支持多种 处理器架构、覆盖数字设施全场景,推动企业数字基础设施软硬件、应用生态繁荣发展。 openEuler 作为一个操作系统发行版平台,每两年推出一个 LTS 版本。该版本为企业级用户提供一个安全稳定可靠的0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum on Kubernetes
容器化MPP数据库升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性 容器化分布式应用程序公共问题 容器网络管理 容器资源管理 容器镜像管理 容器调度 容器监控及自 定义操作 容器存储管理 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性 Kubernetes 容器网络管理 容器资源管理 容器镜像管理 容器调度 容器监控及自 定义操作 容器存储管理 Kubernetes 101 Kubernetes 101 Master组件 Node组件 Kubernetes存储资源 PV ● PersistentVolume 无需Segment Rebalance ● Node失效 ○ Node节点上Master/Segment节点自动修复 Kubernetes 生态集成 ● 日志收集 ○ Fluentd ● 监控及Metrics收集 ○ Prometheus ● 可视化 ○ Grafana ● …... 总结 Greenplum → Kubernetes Native Database0 码力 | 33 页 | 1.93 MB | 1 年前3
共 14 条
- 1
- 2













