Greenplum资源管理器2017 年象行中国(杭州 站)第一期 Greenplum资源管理器 姚珂男/Pivotal kyao@pivotal.io 2017 年象行中国(杭州 站)第一期 Agenda • Greenplum数据库 • Resource Queue • Resource Group 2017 年象行中国(杭州 站)第一期 Greenplum数据库 • 基于PostgreSQL • 分布式 corruption => PANIC 2017 年象行中国(杭州 站)第一期 Resource Queue • Cost is tricky – 没有明确的定义 – 不同优化器不一致 – 优化器不能被纳入资源管理器 2017 年象行中国(杭州 站)第一期 Resource Queue • Priority is rough – 不能精确控制CPU – CHECK_FOR_INTERRUPTS0 码力 | 21 页 | 756.29 KB | 1 年前3
Greenplum Database 管理员指南 6.2.1............................................................................... - 182 - 关于 ORCA 优化器 ................................................................................................... ............................................................................... - 237 - 第十一章:数据导入与导出 .................................................................................................. ................. - 257 - 使用外部表导出数据 ...................................................................................................... - 258 - 使用 gpfdist 协议外部表导出数据 ..............................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商203 204 205 206 访问 Hive 访问 HBase 使⽤ 使⽤ pg_dump 迁移数据 迁移数据 安装 greenplum-db-clients 使⽤ pg_dump 导出数据 使⽤ psql 重建数据 利⽤ 利⽤ hdfs 外部表迁移数据 外部表迁移数据 1. 在原 greenplum 集群中创建 hdfs pxf 可写外部表 2. 将原 greenplum 从 hdfs 外部表中读取数据并写⼊⽬的 greenplum 集群 FAQs 创建好数据仓库之后怎么连接到UDW? UDW⽀持从mysql导⼊数据吗? HDFS/Hive与UDW之间可以导⼊导出数据吗? UDW中怎么kill掉正在执⾏的SQL语句? 如何通过外⽹访问UDW? 节点扩容时数量有没有什么限制? 数据仓库价格 数据仓库价格 ⽬录 Greenplum数据仓库 UDW Copyright uction 2.2 SQL Workbench/J SQL Workbench/J是⼀个独⽴于DBMS,跨平台的SQL查询分析⼯具。具有通⽤性好、⼩巧、免安装等优点, 并且功能强⼤,查询编辑器⽀持⾃动补全,Database Explorer可以查看和编辑各种数据库对象(表、视图、存储过程等)。 详情可⻅:SQL Workbench/J 访问 udw 访问UDW数据仓库 Greenplum数据仓库0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享Greenplum 架构 6 Pivotal Confidential–Inter nal Use Only 平台概况 产品特性 客户端访问和工具 多级容错机制 无共享大规模并行处理 先进的查询优化器 多态存储系统 客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 Pivotal Confidential–Inter nal Use Only 大规模并行数据加载 • 高速数据导入和导出 – 主节点不是瓶颈 – 10+ TB/小时/Rack – 线性扩展 • 低延迟 – 加载后立刻可用 – 不需要中间存储 – 不需要额外数据处理 • 导入/导出 到&从: – 文件系统 – 任意 ETL 产品 – Hadoop 发行版 外部数据源 Interconnect Confidential–Inter nal Use Only 解析器 主节点Segment 系统表 优化器 分布式事务 调度器 执行器 解析器执行词法分 析、语法分析并生 成 解析树 客户端 主节点接受客户连接, 处理请求,执行认证 解析器 主节点 17 Pivotal Confidential–Inter nal Use Only 优化器 本地存储 主节点Segment 系统表 分布式事务0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 精粹文集16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 来 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多 这个核心软件组件。最终实现了对同一个集群中多 个 Postgresql 实例的高效协同和并行计算,Interconnect 承载了并行 查询计划生产和 Dispatch 分发(QD)、协调节点上 QE 执行器的并 行工作、负责数据分布、Pipeline 计算、镜像复制、健康探测等等诸 多任务。 在 Greenplum 开源以前,据说一些厂商也有开发 MPP 数据库的打算, 其中最难的部分就是在 Interconnect0 码力 | 64 页 | 2.73 MB | 1 年前3
VMware Greenplum v6.18 Documentationgp_backup_directIO_read_chunk_mb gp_connections_per_thread gp_enable_sequential_window_plans gp_idf_deduplicate gp_snmp_community gp_snmp_monitor_address gp_snmp_use_inform_or_trap gp_workfile_checksumming The count is turned into a weight that reflects Term Frequency / Inverse Document Frequency (tf/idf). The calculation for a given term in a given document is: #_times_term_appears_in_this_doc * log( product multiplied by each document SFV to produce the tf/idf. Calculate the tf/idf: SELECT docnum, (feature_vector*logidf)::float8[] AS tf_idf FROM (SELECT log(count(feature_vector)/vec_count_n0 码力 | 1959 页 | 19.73 MB | 1 年前3
VMware Greenplum v6.19 Documentationgp_backup_directIO_read_chunk_mb gp_connections_per_thread gp_enable_sequential_window_plans gp_idf_deduplicate gp_snmp_community gp_snmp_monitor_address gp_snmp_use_inform_or_trap gp_workfile_checksumming math. The count is turned into a weight that reflects Term Frequency / Inverse Document Frequency (tf/idf). The calculation for a given term in a given document is: #_times_term_appears_in_this_doc * log( product multiplied by each document SFV to produce the tf/idf. Calculate the tf/idf: SELECT docnum, (feature_vector*logidf)::float8[] AS tf_idf FROM (SELECT log(count(feature_vector)/vec_count_n0 码力 | 1972 页 | 20.05 MB | 1 年前3
VMware Tanzu Greenplum v6.20 Documentationgp_backup_directIO_read_chunk_mb gp_connections_per_thread gp_enable_sequential_window_plans gp_idf_deduplicate gp_snmp_community gp_snmp_monitor_address gp_snmp_use_inform_or_trap gp_workfile_checksumming The count is turned into a weight that reflects Term Frequency / Inverse Document Frequency (tf/idf). The calculation for a given term in a given document is: #_times_term_appears_in_this_doc * log( product multiplied by each document SFV to produce the tf/idf. Calculate the tf/idf: SELECT docnum, (feature_vector*logidf)::float8[] AS tf_idf FROM (SELECT log(count(feature_vector)/vec_count_n0 码力 | 1988 页 | 20.25 MB | 1 年前3
VMware Greenplum 6 Documentationgp_backup_directIO_read_chunk_mb gp_connections_per_thread gp_enable_sequential_window_plans gp_idf_deduplicate gp_snmp_community gp_snmp_monitor_address gp_snmp_use_inform_or_trap gp_workfile_checksumming The count is turned into a weight that reflects Term Frequency / Inverse Document Frequency (tf/idf). The calculation for a given term in a given document is: #_times_term_appears_in_this_doc * log( product multiplied by each document SFV to produce the tf/idf. Calculate the tf/idf: SELECT docnum, (feature_vector*logidf)::float8[] AS tf_idf FROM (SELECT log(count(feature_vector)/vec_count_n0 码力 | 2445 页 | 18.05 MB | 1 年前3
VMware Greenplum 6 Documentationgp_backup_directIO_read_chunk_mb gp_connections_per_thread gp_enable_sequential_window_plans gp_idf_deduplicate gp_snmp_community gp_snmp_monitor_address gp_snmp_use_inform_or_trap gp_workfile_checksumming The count is turned into a weight that reflects Term Frequency / Inverse Document Frequency (tf/idf). The calculation for a given term in a given document is: #_times_term_appears_in_this_doc * log( product multiplied by each document SFV to produce the tf/idf. Calculate the tf/idf: SELECT docnum, (feature_vector*logidf)::float8[] AS tf_idf FROM (SELECT log(count(feature_vector)/vec_count_no0 码力 | 2374 页 | 44.90 MB | 1 年前3
共 35 条
- 1
- 2
- 3
- 4













