 Greenplum机器学习⼯具集和案例Time Series Analysis • ARIMA Unsupervised Learning AssociaDon Rules (Apriori) Clustering (k-Means) Topic Modelling (Latent Dirichlet AllocaDon) Utility FuncJons Conjugate Gradient • Random • StraDfied Sessionize Term Frequency for Text Analysis Nearest Neighbors • k-Nearest Neighbors 成熟的数据科学学习库 2017.thegiac.com • 更好的并行度 • 算法充分利用 MPP 架构实现并行 • 更好的可扩展性 • 算法随着数据扩充而线性扩展 4 数据节点 ● 每个节点6个segment 每个定点有50个边的图 5B edges (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log scale (100s) (1s) (10K s) (1M s) 可扩展性 – PageRank 性能 2017.thegiac.com MADlib0 码力 | 58 页 | 1.97 MB | 1 年前3 Greenplum机器学习⼯具集和案例Time Series Analysis • ARIMA Unsupervised Learning AssociaDon Rules (Apriori) Clustering (k-Means) Topic Modelling (Latent Dirichlet AllocaDon) Utility FuncJons Conjugate Gradient • Random • StraDfied Sessionize Term Frequency for Text Analysis Nearest Neighbors • k-Nearest Neighbors 成熟的数据科学学习库 2017.thegiac.com • 更好的并行度 • 算法充分利用 MPP 架构实现并行 • 更好的可扩展性 • 算法随着数据扩充而线性扩展 4 数据节点 ● 每个节点6个segment 每个定点有50个边的图 5B edges (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log scale (100s) (1s) (10K s) (1M s) 可扩展性 – PageRank 性能 2017.thegiac.com MADlib0 码力 | 58 页 | 1.97 MB | 1 年前3
 Greenplum Database 管理员指南 6.2.1数据是如何存储的 要理解 GP 是如何在不同的 Instance 之间存储数据的,可以参考下图所示的简单 逻辑关系,主键(Primary Key)被使用黑体标记,外键(Foreign Key)关系通过连 线标明。 用数据仓库的术语来说,这种数据模型称为星型模型。在这种数据库模型下,Order 表通常被称为事实表(Fact Table),其他表(Customer、Vendor、Product)被称 配置或者 DNS 的解析,如果 hostname 解析出的 IP 地址与访问时的 IP 地址不能匹配,则访问会被拒绝。通常可能没有必要使用 hostname 来进 行配置,这个特性主要是为了 gp4k 而新增的功能。 IP-address IP-mask 通过标准子网掩码的格式作为掩码长度的可选方案。其被作为一个单独的 字段。255.0.0.0 等效于 IPv4 的 8 位掩码长度。255 CPU 和内存资源。这种资源组,使 用 cgroup 来管理外部组件的 CPU 和内存的使用总量。 注意:GP 的容器化部署,例如 Greenplum for Kubernetes(GP4K),可能会创建 一组嵌套的 cgroup 配置来管理系统资源,这可能会影响 GP 的资源组管理 CPU 的使 用率、Core 数量和内存使用量,资源组的资源限制将受到上层资源配额的限制。 例如,GP0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1数据是如何存储的 要理解 GP 是如何在不同的 Instance 之间存储数据的,可以参考下图所示的简单 逻辑关系,主键(Primary Key)被使用黑体标记,外键(Foreign Key)关系通过连 线标明。 用数据仓库的术语来说,这种数据模型称为星型模型。在这种数据库模型下,Order 表通常被称为事实表(Fact Table),其他表(Customer、Vendor、Product)被称 配置或者 DNS 的解析,如果 hostname 解析出的 IP 地址与访问时的 IP 地址不能匹配,则访问会被拒绝。通常可能没有必要使用 hostname 来进 行配置,这个特性主要是为了 gp4k 而新增的功能。 IP-address IP-mask 通过标准子网掩码的格式作为掩码长度的可选方案。其被作为一个单独的 字段。255.0.0.0 等效于 IPv4 的 8 位掩码长度。255 CPU 和内存资源。这种资源组,使 用 cgroup 来管理外部组件的 CPU 和内存的使用总量。 注意:GP 的容器化部署,例如 Greenplum for Kubernetes(GP4K),可能会创建 一组嵌套的 cgroup 配置来管理系统资源,这可能会影响 GP 的资源组管理 CPU 的使 用率、Core 数量和内存使用量,资源组的资源限制将受到上层资源配额的限制。 例如,GP0 码力 | 416 页 | 6.08 MB | 1 年前3
 Pivotal HVR meetup 20190816式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时,天天拍车也正在布局二手车金融、二手车保卖等创新业务。截0 码力 | 31 页 | 2.19 MB | 1 年前3 Pivotal HVR meetup 20190816式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时,天天拍车也正在布局二手车金融、二手车保卖等创新业务。截0 码力 | 31 页 | 2.19 MB | 1 年前3
 并行不悖- OLAP 在互联网公司的实践与思考数据来源为OLTP库,针对小数据量传输和计算,部分实时交互操作 Ø 以对账业务为主,统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数 Ø 以重点业务线、活动数据、非OLTP业务数据的任务计算为主 • 公司IDC_03机房Greenplum体系 Ø 数据来源来源为OTLP库库,针对大数据量传输和计算,采用T+1方式 Ø 以核心业务的数据计算、统计为主0 码力 | 43 页 | 9.66 MB | 1 年前3 并行不悖- OLAP 在互联网公司的实践与思考数据来源为OLTP库,针对小数据量传输和计算,部分实时交互操作 Ø 以对账业务为主,统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数 Ø 以重点业务线、活动数据、非OLTP业务数据的任务计算为主 • 公司IDC_03机房Greenplum体系 Ø 数据来源来源为OTLP库库,针对大数据量传输和计算,采用T+1方式 Ø 以核心业务的数据计算、统计为主0 码力 | 43 页 | 9.66 MB | 1 年前3
 Greenplum 排序算法个输入缓冲区的 最小值,并输出到输出缓冲区? 归并排序的三个问题 26 ● 假设顺串(长度为L)分布在K个文件中,顺串合并时需要K个输入缓冲区和1个输 出缓冲区,每次选取K个缓冲区的最小值,输出到输出缓冲区。最后,输出缓冲 区输出的顺串长度为L*K ● 算法复杂度 O(K* (L*K)) 顺串合并 1 10 30 44 56 . . . 6 8 34 64 66 . . . 7 11 ScanState ss 查询状态信息 bool randomAccess 排序后的元组是否需要随机访问 bool bounded 是否是TopK查询 int64 bound TopK查询中K的值 bool sort_Done 排序步骤是否完成 GenericTupStore* tuplesortstate 根据排序算法类型,指向Tuplesortstate 或者Tuplesortstate_mk https://cn.greenplum.org/为前缀。对这些字符串进行排序的时候,多键排序优 势明显。 多键排序 40 ● 多键排序算法:快速排序的扩展 ● 假设待排序数组为a,数组元素是长度为K的字符串, 多键排序 41 多键排序 42 ● Group Aggregation ● Merge Join ● Distinct Aggregation ● Sorted Motion0 码力 | 52 页 | 2.05 MB | 1 年前3 Greenplum 排序算法个输入缓冲区的 最小值,并输出到输出缓冲区? 归并排序的三个问题 26 ● 假设顺串(长度为L)分布在K个文件中,顺串合并时需要K个输入缓冲区和1个输 出缓冲区,每次选取K个缓冲区的最小值,输出到输出缓冲区。最后,输出缓冲 区输出的顺串长度为L*K ● 算法复杂度 O(K* (L*K)) 顺串合并 1 10 30 44 56 . . . 6 8 34 64 66 . . . 7 11 ScanState ss 查询状态信息 bool randomAccess 排序后的元组是否需要随机访问 bool bounded 是否是TopK查询 int64 bound TopK查询中K的值 bool sort_Done 排序步骤是否完成 GenericTupStore* tuplesortstate 根据排序算法类型,指向Tuplesortstate 或者Tuplesortstate_mk https://cn.greenplum.org/为前缀。对这些字符串进行排序的时候,多键排序优 势明显。 多键排序 40 ● 多键排序算法:快速排序的扩展 ● 假设待排序数组为a,数组元素是长度为K的字符串, 多键排序 41 多键排序 42 ● Group Aggregation ● Merge Join ● Distinct Aggregation ● Sorted Motion0 码力 | 52 页 | 2.05 MB | 1 年前3
 VMware Greenplum 6 Documentationrequests from the segments while experiencing network failures. 32886, 15725 Introduces the option -k for gpfdist to manually set the session clean up timeout in order to avoid the error 400 invalid request Greenplum Database 6.7 includes MADlib version 1.17, which introduces new Deep Learning features, k-Means clustering, and other improvements and bug fixes. See the Apache MADlib page for additional information Greenplum Database 6.6 includes MADlib version 1.17, which introduces new Deep Learning features, k-Means clustering, and other improvements and bug fixes. See the MADlib 1.17 Release Notes for a complete0 码力 | 2445 页 | 18.05 MB | 1 年前3 VMware Greenplum 6 Documentationrequests from the segments while experiencing network failures. 32886, 15725 Introduces the option -k for gpfdist to manually set the session clean up timeout in order to avoid the error 400 invalid request Greenplum Database 6.7 includes MADlib version 1.17, which introduces new Deep Learning features, k-Means clustering, and other improvements and bug fixes. See the Apache MADlib page for additional information Greenplum Database 6.6 includes MADlib version 1.17, which introduces new Deep Learning features, k-Means clustering, and other improvements and bug fixes. See the MADlib 1.17 Release Notes for a complete0 码力 | 2445 页 | 18.05 MB | 1 年前3
 VMware Greenplum v6.25 Documentationrequests from the segments while experiencing network failures. 32886, 15725 Introduces the option -k for gpfdist to manually set the session clean up timeout in order to avoid the error 400 invalid request Greenplum Database 6.7 includes MADlib version 1.17, which introduces new Deep Learning features, k-Means clustering, and other improvements and bug fixes. See the Apache VMware Greenplum 6 Documentation Greenplum Database 6.6 includes MADlib version 1.17, which introduces new Deep Learning features, k-Means clustering, and other improvements and bug fixes. See the MADlib 1.17 Release Notes for a complete0 码力 | 2400 页 | 18.02 MB | 1 年前3 VMware Greenplum v6.25 Documentationrequests from the segments while experiencing network failures. 32886, 15725 Introduces the option -k for gpfdist to manually set the session clean up timeout in order to avoid the error 400 invalid request Greenplum Database 6.7 includes MADlib version 1.17, which introduces new Deep Learning features, k-Means clustering, and other improvements and bug fixes. See the Apache VMware Greenplum 6 Documentation Greenplum Database 6.6 includes MADlib version 1.17, which introduces new Deep Learning features, k-Means clustering, and other improvements and bug fixes. See the MADlib 1.17 Release Notes for a complete0 码力 | 2400 页 | 18.02 MB | 1 年前3
 Greenplum 6: 混合负载的理想数据平台PageRank性能 Greenplum集群: ● 1 master ● 4*6 segment 50亿条链接 (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log scale (100s) (1s) (10K s) (1M s) 数据库内集成分析 GRAPHS Confidential & Proprietary “请找 Footnotes Guideline . PROD Space usage (compressed) 1. 24 个生产集群 2. 2个选项: 20个节点或 40个节点 3. 600+ 服务器, 13k+ 核, 81PB存储(增长 中) 4. 2.5PB 或 25PB 原始数据 按10x压缩率 1 2 3 4 Greenplum在摩根士丹利 OLTP - Online transaction0 码力 | 52 页 | 4.48 MB | 1 年前3 Greenplum 6: 混合负载的理想数据平台PageRank性能 Greenplum集群: ● 1 master ● 4*6 segment 50亿条链接 (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log scale (100s) (1s) (10K s) (1M s) 数据库内集成分析 GRAPHS Confidential & Proprietary “请找 Footnotes Guideline . PROD Space usage (compressed) 1. 24 个生产集群 2. 2个选项: 20个节点或 40个节点 3. 600+ 服务器, 13k+ 核, 81PB存储(增长 中) 4. 2.5PB 或 25PB 原始数据 按10x压缩率 1 2 3 4 Greenplum在摩根士丹利 OLTP - Online transaction0 码力 | 52 页 | 4.48 MB | 1 年前3
 VMware Greenplum 7 Documentation“=” operator, used to decide whether values are the same or not. stavalues contains an array of the K most common non-null values appearing in the column. stanumbers contains the frequencies (fractions stavalues array. The values are ordered in decreasing frequency. Since the arrays are variable-size, K can be chosen by the statistics collector. Values must occur more than once to be added to the stavalues sentence_transform ers Multilingual Sentence, Paragraph, and Image Embeddings using BERT & Co. sgmllib3k Py3k port of sgmllib shap A unified approach to explain the output of any machine learning model six0 码力 | 2221 页 | 14.19 MB | 1 年前3 VMware Greenplum 7 Documentation“=” operator, used to decide whether values are the same or not. stavalues contains an array of the K most common non-null values appearing in the column. stanumbers contains the frequencies (fractions stavalues array. The values are ordered in decreasing frequency. Since the arrays are variable-size, K can be chosen by the statistics collector. Values must occur more than once to be added to the stavalues sentence_transform ers Multilingual Sentence, Paragraph, and Image Embeddings using BERT & Co. sgmllib3k Py3k port of sgmllib shap A unified approach to explain the output of any machine learning model six0 码力 | 2221 页 | 14.19 MB | 1 年前3
 VMware Greenplum 6 DocumentationGreenplum Database 6.7 includes MADlib version 1.17, which introduces new Deep Learning features, k-Means clustering, and other improvements and bug fixes. See the Apache MADlib page for additional information Greenplum Database 6.6 includes MADlib version 1.17, which introduces new Deep Learning features, k-Means clustering, and other improvements and bug fixes. See the MADlib 1.17 Release Notes for a complete "=" operator, used to decide whether values are the same or not. stavalues contains an array of the K most common non-null values appearing in the column. stanumbers contains the frequencies (fractions0 码力 | 2374 页 | 44.90 MB | 1 年前3 VMware Greenplum 6 DocumentationGreenplum Database 6.7 includes MADlib version 1.17, which introduces new Deep Learning features, k-Means clustering, and other improvements and bug fixes. See the Apache MADlib page for additional information Greenplum Database 6.6 includes MADlib version 1.17, which introduces new Deep Learning features, k-Means clustering, and other improvements and bug fixes. See the MADlib 1.17 Release Notes for a complete "=" operator, used to decide whether values are the same or not. stavalues contains an array of the K most common non-null values appearing in the column. stanumbers contains the frequencies (fractions0 码力 | 2374 页 | 44.90 MB | 1 年前3
共 21 条
- 1
- 2
- 3













