 并行不悖- OLAP 在互联网公司的实践与思考业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 —— dbsync平台 7 数据仓库体系架构 数据架构示意图 8 数据仓库体系架构 架构的具体技术实现 • datax,csv,load,copy Ø 数据同步结果确认与显示 • 数据同步方式 Ø gpfdist+外部表 : UMGW大表 Ø db_sync同步程序 : 底层库 + 同步逻辑 + Django界面 Ø 临时同步需求: datax , copy 29 Greenplum运维体系 数据库数据传输与同步-db_sync 30 Greenplum运维体系 数据库数据传输与同步-db_sync Ø单个存储过程,可以在shell中 select func_name() 的方式调度 • 外部任务调度 Ø将整个过程封装成shell脚本,或 Python脚本 Ø用crontab在操作系统调用脚本 Ø用 opencron在图形界面调用脚本 32 Greenplum运维体系 Greenplum任务调度-opencron 33 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范0 码力 | 43 页 | 9.66 MB | 1 年前3 并行不悖- OLAP 在互联网公司的实践与思考业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 —— dbsync平台 7 数据仓库体系架构 数据架构示意图 8 数据仓库体系架构 架构的具体技术实现 • datax,csv,load,copy Ø 数据同步结果确认与显示 • 数据同步方式 Ø gpfdist+外部表 : UMGW大表 Ø db_sync同步程序 : 底层库 + 同步逻辑 + Django界面 Ø 临时同步需求: datax , copy 29 Greenplum运维体系 数据库数据传输与同步-db_sync 30 Greenplum运维体系 数据库数据传输与同步-db_sync Ø单个存储过程,可以在shell中 select func_name() 的方式调度 • 外部任务调度 Ø将整个过程封装成shell脚本,或 Python脚本 Ø用crontab在操作系统调用脚本 Ø用 opencron在图形界面调用脚本 32 Greenplum运维体系 Greenplum任务调度-opencron 33 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范0 码力 | 43 页 | 9.66 MB | 1 年前3
 Greenplum Database 管理员指南 6.2.1mytable; 要得到关于 psql 客户端应用程序的更多信息,可以查看 PostgreSQL 的相关文档。 针对 GP 的 pgAdminIII 如果更喜欢图形化界面(有谁不喜欢呢),可以使用针对 GP 的 pgAdminIII。该 GUI 客户端除了支持标准 PostgreSQL 外,还支持一些 GP 的专有特性。 针对 GP 的 pgAdminIII 软件选择 File and Print Server 附加组件选择 Development Tools 初始 root 密码 123456 如果在安装操作系统时,图形化引导界面中无法配置超过128GB的SWAP,可以先 不配置,留在操作系统装好之后再做配置。 GP数据库使用的数据盘,不需要在安装操作系统时配置(上述表格中未列出数据 盘),可以在装好操作系统之后,在 整并行度参数。 在使用gpexpand命令来完成数据库阶段的操作时,通常会分为下面4个步骤: 1. 创建扩容配置文件。可以不带任何参数的直接执行gpexpand命令,进入交互式操 作界面,根据提示信息,输入需要新增的主机的主机名(可以输入英文逗号分隔的 多个主机名),以及,需要在现有计算节点主机上增加的Primary的数量(虽然支 持,但是对于生产环境,需要谨慎评估)。完成交互式输入之后,将会自动生成一0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1mytable; 要得到关于 psql 客户端应用程序的更多信息,可以查看 PostgreSQL 的相关文档。 针对 GP 的 pgAdminIII 如果更喜欢图形化界面(有谁不喜欢呢),可以使用针对 GP 的 pgAdminIII。该 GUI 客户端除了支持标准 PostgreSQL 外,还支持一些 GP 的专有特性。 针对 GP 的 pgAdminIII 软件选择 File and Print Server 附加组件选择 Development Tools 初始 root 密码 123456 如果在安装操作系统时,图形化引导界面中无法配置超过128GB的SWAP,可以先 不配置,留在操作系统装好之后再做配置。 GP数据库使用的数据盘,不需要在安装操作系统时配置(上述表格中未列出数据 盘),可以在装好操作系统之后,在 整并行度参数。 在使用gpexpand命令来完成数据库阶段的操作时,通常会分为下面4个步骤: 1. 创建扩容配置文件。可以不带任何参数的直接执行gpexpand命令,进入交互式操 作界面,根据提示信息,输入需要新增的主机的主机名(可以输入英文逗号分隔的 多个主机名),以及,需要在现有计算节点主机上增加的Primary的数量(虽然支 持,但是对于生产环境,需要谨慎评估)。完成交互式输入之后,将会自动生成一0 码力 | 416 页 | 6.08 MB | 1 年前3
 基于 Greenplum 打造SaaS化电商服务平台担极端复杂的在线分 析,有待验证 数据集市 报表 CRM 胜算 …… …… …… …… 数据仓库演变 2015 2016 2017 2018 2019 2014原始阶段 2016.4全新报表界面:梳理业务、开发报表 2016.9自建GP集群,上线工作量统计 2018.3HDB4PG 2017.1报表全面迁移至GP 2017.6集群拆分 2018.9全面切换HDB4PG 20180 码力 | 7 页 | 547.94 KB | 1 年前3 基于 Greenplum 打造SaaS化电商服务平台担极端复杂的在线分 析,有待验证 数据集市 报表 CRM 胜算 …… …… …… …… 数据仓库演变 2015 2016 2017 2018 2019 2014原始阶段 2016.4全新报表界面:梳理业务、开发报表 2016.9自建GP集群,上线工作量统计 2018.3HDB4PG 2017.1报表全面迁移至GP 2017.6集群拆分 2018.9全面切换HDB4PG 20180 码力 | 7 页 | 547.94 KB | 1 年前3
 Greenplum 编译安装和调试供了非常直观、强大、易用的调试环境,包括 clion、eclipse、xcode 等。IDE 对于学习 Greenplum 代码也非常有帮助,可以大大提高效率。 下面简单介绍如何使用 clion 图形化用户界面调试 Greenplum 代码。(Eclipse、VisualCode具有 类似功能) Greenplum 进程都是 daemon 进程,很难通过启动方式进入调试器。因而通常使用的方法是 attach0 码力 | 15 页 | 2.07 MB | 1 年前3 Greenplum 编译安装和调试供了非常直观、强大、易用的调试环境,包括 clion、eclipse、xcode 等。IDE 对于学习 Greenplum 代码也非常有帮助,可以大大提高效率。 下面简单介绍如何使用 clion 图形化用户界面调试 Greenplum 代码。(Eclipse、VisualCode具有 类似功能) Greenplum 进程都是 daemon 进程,很难通过启动方式进入调试器。因而通常使用的方法是 attach0 码力 | 15 页 | 2.07 MB | 1 年前3
共 4 条
- 1













