特征工程 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 精粹文集

无共享架构，从而更将这种并行计算能力发挥到极致，除此之外，MPP 采用两阶段提交和全局事务管理机制来保证集群上分布式事务的一致性，Greenplum 像 Postgresql 一样满足关系型数据库的包括 ACID 在内的所有特征。从上图可以看到，Greenplum 的最小并行单元不是节点层级，而是在实例层级。安装过 Greenplum 的同学应该都看到每个实例都有自己的 Postgresql 目录结构，都有各自的一套的特性，SQL-On-Hadoop 大多不支持数据局部更新和删除功能 (update/delete)；例如 Spark 计算时，需要预先将数据装载到 DataFrames 模型中；基本上都缺少索引和存储过程等特征除 HAWQ 外，大多对于 ODBC/JDBC/DBI/OLEDB/.NET 接口的支持有限，与主流第三方 BI 报表工具的兼容性不如 MPP 数据库 SQL-On-Hadoop 不擅长于交互式（interactive）的开放性的特性给客户带来的好处，不只是硬件厂商和型号的选择范围，也包含工程实施过程的便利性。2014 年，该客户大数据平台需要进行数据搬迁，Greenplum 采用了旧环境数据备份、传输、新环境恢复的方案，停机时间实际只花了不到 4 天。相比较而言，其他封闭式系统，需要压缩并备份数据，倒腾出整套设备搬迁到新数据中心，然后再导入新数据，影响或暂停业务几十天。两种方案从工程复杂度、人力投入、业务影响来说，开放式架构所带

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

5：新一代数据平台关于本白皮书 Pivotal 最近推出全球第一个开源、支持多云的高级分析数据平台——Pivotal Greenplum 5。本白皮书着眼介绍 Greenplum 5 的核心特征，及多年来围绕该平台发展出的生态系统。摘要 Pivotal Greenplum 不受限于基础架构，这意味着它是一种可完全移植的分析数据库软件解决方案，可部署在多云环境（公有云和私有云）中，也适用不同的本地配置。其大规模并行处理 Python 版本升级为 2.7。PL/Python 和 Python 管理实用程序现在均以版本 2.7 为基础。总结 Greenplum 5 是 Pivotal 推出的新一代数据平台，在对经过十几年工程设计投入的产品进行改进的同时带来了多项新功能，可以帮助组织满足其企业数据仓库和高级分析需求。这个新版本扩充了客户的部署选项，除了目前支持的本地平台以外，还获得了其他几种云平台的认证。它提供了一个

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

系，可以根据用户的实际需求进行评估和实施。目前，编者的一键式集群配置安装初始化命令已经内置了两种镜像模式，分别为 RING 和 PAIR。RING 是一种带有环状关系的镜像模式，典型的特征是，一组机器形成对等的环，环上的每台机器，其对应的 Mirror 会散落在后面的一台或者多台机器上，这种模式包含了 gpinitsystem 命令缺省支持的两种镜像模式：GROUP 和 SPREAD。第二章：分布式数据库概念 GP 是一个分布式数据库集群系统。这就意味着在物理上，数据是存储在多个数据库上的(称为 Instance)。这些独立的数据库通过网络进行通信(称为内联网络)。分布式数据库的一个基本特征是，用户和客户端程序在访问时如同访问一个单机数据库 (GP 访问 Master)一样方便，数据库内部的分布式实现不需要用户过多的关心，对于客户端应用来说，访问 GP 数据库与单机数据库没有什么区别。不过，对于开发人员和是唯一性最好的字段，但是，不建议为了选择一个分布键而去增加一个主键，这是一种逻辑颠倒的做法，通常，应该选择一个常用于大表之间关联的某个唯一性较高的字段作为分布键，一般这个字段可能在其他某个表中具有主键特征，例如，客户 ID，例如会员卡号，例如手机号码，例如身份证号码，等等，在选择分布键时，仅需要考虑大表与大表之间的关联，任何涉及到小表关联的场景均不应作为选择分布键的考虑因素。如果可以，

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

- 营销 - 在线注册 - ⽹网⻚页浏览历史 - 地理理信息数据 - 业务部⻔门信息 - ⽹网站⽤用户信息 • TB 级别数据 • 1000+ 特征平台建模⼯工具 PL/pgSQL 数据和技术预览 2017.thegiac.com 数据整理理数据准备信息价值和证据权重成对相关性删除⾼高度相关变量量 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理特征⽣生成验证预测信息价值⽅方差膨胀因⼦子成对相关性逻辑回归 Elastic Net 特征选择模型 1 2 3 4 5 6 改进后的 in-database 流程 2017.thegiac ⾏行行代码 ● 75 分钟 ● 116 ⾏行行代码 ● 8 分钟 9.35x 特征编辑 ● 439 特征 ● 4,517 ⾏行行代码 ● 100 分钟 ● 934 特征 ● 1,438 ⾏行行代码 ● 30 分钟多 495 个特征，快 3.33x 信息价值 ● ~450 个变量量，~30分钟计算结果并写⼊入 excel

0 码力 | 58 页 | 1.97 MB | 1 年前
3
阿里云 AnalyticDB for PostgreSQL - 打造更简单易用的Cloud SQL Data Warehouse

Year - 3 非结构化数据向量检索， “以图搜图” （规划中）场景应用： 1、Web App把图片或者视频等非结构化数据通过特征提取服务，提取特征向量，并写入 AnalyticDB for PG的向量表。 2、Web App检索的时，把非结构化数据通过特征提取服务接口提取出向量，同时调用 AnalyticDB for PG的查询分析接口做查询。特点： • 易用，结构化和非结构化数据关联查询。准确性高，阿里自研向量检索算法。 Web APP AnalyticDB for PostgreSQL AnalyticDB for PostgreSQL Client 特征提取服务 5.检索分析 1.注册特征提取服务 3.写入url 4.生成特征 2.写入非结构化数 OSS 音频图片文本向量 ①GPU的计算性能加速 ②支持Greenplum 6.0版本其他演进规划：更快性能

0 码力 | 22 页 | 2.98 MB | 1 年前
3
TiDB v8.4 中文手册

与传统的全文搜索（主要依赖于精确的关键词匹配和词频）不同，向量搜索通过将不同类型的数据（如文本、图像或音频）转换为高维向量，并根据这些向量之间的相似度来进行查询。这种搜索方法能够捕捉数据的语义特征和上下文信息，从而更准确地理解用户意图。即使搜索的词语与数据库中的内容不完全匹配，向量搜索仍然可以通过对数据语义的理解，找到与用户意图相符合的结果。例如，搜索 “一种会游泳的动物” 时，全向量嵌入向量嵌入 (vector embedding) 也称为嵌入 (embedding) ，是在高维空间中用于表示现实世界对象的数字序列。它可以捕捉文档、图像、音频和视频等非结构化数据的语义特征和上下文。向量嵌入在机器学习中至关重要，是语义相似性搜索的基础。 TiDB 专门引入了向量数据类型以及向量搜索索引，用于优化向量嵌入的存储和检索，增强其在人工智能领域的应用。你可以使用向量类型在种嵌入模型。在切换模型时，你需要评估改变嵌入模型对向量查询准确性的影响。一些嵌入模型，如 OpenAI text-embedding-3-large，支持缩短向量嵌入，即在不丢失向量表示的概念特征的情况下，从向量序列末尾移除一些数字。你也可以使用这种嵌入模型来减少向量维数。 4.8.4.4 在结果输出中排除向量列向量嵌入数据通常很大，而且只在搜索过程中使用。通过从查询结果中排除向量列，可以显著减少

0 码力 | 5072 页 | 104.05 MB | 10 月前
3
TiDB v8.5 中文手册

与传统的全文搜索（主要依赖于精确的关键词匹配和词频）不同，向量搜索通过将不同类型的数据（如文本、图像或音频）转换为高维向量，并根据这些向量之间的相似度来进行查询。这种搜索方法能够捕捉数据的语义特征和上下文信息，从而更准确地理解用户意图。即使搜索的词语与数据库中的内容不完全匹配，向量搜索仍然可以通过对数据语义的理解，找到与用户意图相符合的结果。例如，搜索 “一种会游泳的动物” 时，全向量嵌入向量嵌入 (vector embedding) 也称为嵌入 (embedding) ，是在高维空间中用于表示现实世界对象的数字序列。它可以捕捉文档、图像、音频和视频等非结构化数据的语义特征和上下文。向量嵌入在机器学习中至关重要，是语义相似性搜索的基础。 TiDB 专门引入了向量数据类型以及向量搜索索引，用于优化向量嵌入的存储和检索，增强其在人工智能领域的应用。你可以使用向量类型在种嵌入模型。在切换模型时，你需要评估改变嵌入模型对向量查询准确性的影响。一些嵌入模型，如 OpenAI text-embedding-3-large，支持缩短向量嵌入，即在不丢失向量表示的概念特征的情况下，从向量序列末尾移除一些数字。你也可以使用这种嵌入模型来减少向量维数。 4.8.4.4 在结果输出中排除向量列向量嵌入数据通常很大，而且只在搜索过程中使用。通过从查询结果中排除向量列，可以显著减少

0 码力 | 5095 页 | 104.54 MB | 10 月前
3
TiDB v8.1 中文手册

v8.1.0 �→ 开始 GA）通过资源组的规则，TiDB 能够自动识别出运行超出预期的查询，并对该查询进行限流或取消处理。 �→ 即使没有被规则识别，你仍然可以手动添加查询特征以及采取对应的措施， �→ 从而降低突发的查询性能问题对整个数据库的影响。数据库管理与可观测性支持观测索引使用情况（从 v8.0.0 Runaway Query。该功能通过 WATCH 子句实现，当某一个查询被识别为 Runaway Query 之后，会提取这个查询的匹配特征（由 WATCH 后的匹配方式参数决定），在接下来的一段时间里（由 DURATION 定义），这个 Runaway Query 的匹配特征会被加入到监控列表，TiDB 实例会将查询和监控列表进行匹配，匹配到的查询直接标记为 Runaway Query，而不再等待其 PLAN 表示通过 Plan Digest 匹配所有模式 (Pattern) 相同的 SQL WATCH 中的 DURATION 选项，用于表示此识别项的持续时间，默认为无限长。添加监控项后，匹配特征和 ACTION 都不会随着 QUERY_LIMIT 配置的修改或删除而改变或删除。可以使用 QUERY WATCH REMOVE 来删除监控项。 QUERY_LIMIT 具体格式如下： 765

0 码力 | 4807 页 | 101.31 MB | 1 年前
3
TiDB v8.2 中文手册

Runaway Query。该功能通过 WATCH 子句实现，当某一个查询被识别为 Runaway Query 之后，会提取这个查询的匹配特征（由 WATCH 后的匹配方式参数决定），在接下来的一段时间里（由 DURATION 定义），这个 Runaway Query 的匹配特征会被加入到监控列表，TiDB 实例会将查询和监控列表进行匹配，匹配到的查询直接标记为 Runaway Query，而不再等待其 PLAN 表示通过 Plan Digest 匹配所有模式 (Pattern) 相同的 SQL WATCH 中的 DURATION 选项，用于表示此识别项的持续时间，默认为无限长。添加监控项后，匹配特征和 ACTION 都不会随着 QUERY_LIMIT 配置的修改或删除而改变或删除。可以使用 QUERY WATCH REMOVE 来删除监控项。 QUERY_LIMIT 具体格式如下：参数 QUERY WATCH 语句说明语法详见QUERY WATCH。参数说明如下： 801 • RESOURCE GROUP 用于指定资源组。此语句添加的 Runaway Queries 监控特征将添加到该资源组的监控列表中。此参数可以省略，省略时作用于 default 资源组。 • ACTION 的含义与 QUERY LIMIT 相同。此参数可以省略，省略时表示识别后的对应操作采用此时资源组中

0 码力 | 4987 页 | 102.91 MB | 10 月前
3
TiDB v8.0 中文手册

Runaway Query。该功能通过 WATCH 子句实现，当某一个查询被识别为 Runaway Query 之后，会提取这个查询的匹配特征（由 WATCH 后的匹配方式参数决定），在接下来的一段时间里（由 DURATION 定义），这个 Runaway Query 的匹配特征会被加入到监控列表，TiDB 实例会将查询和监控列表进行匹配，匹配到的查询直接标记为 Runaway Query，而不再等待其表示通过 Plan Digest 匹配所有模式 (Pattern) 相同的 SQL 781 WATCH 中的 DURATION 选项，用于表示此识别项的持续时间，默认为无限长。添加监控项后，匹配特征和 ACTION 都不会随着 QUERY_LIMIT 配置的修改或删除而改变或删除。可以使用 QUERY WATCH REMOVE 来删除监控项。 QUERY_LIMIT 具体格式如下：参数 5.3 QUERY WATCH 语句说明语法详见QUERY WATCH。参数说明如下： • RESOURCE GROUP 用于指定资源组。此语句添加的 Runaway Queries 监控特征将添加到该资源组的监控列表中。此参数可以省略，省略时作用于 default 资源组。 782 • ACTION 的含义与 QUERY LIMIT 相同。此参数可以省略，省略时表示识别后的对应操作采用此时资源组中

0 码力 | 4805 页 | 101.28 MB | 1 年前
3

共 63 条前往

页

分类

语言

格式

Greenplum 精粹文集

Pivotal Greenplum 5：新一代数据平台

Greenplum Database 管理员指南 6.2.1

Greenplum机器学习⼯具集和案例

阿里云 AnalyticDB for PostgreSQL - 打造更简单易用的Cloud SQL Data Warehouse

TiDB v8.4 中文手册

TiDB v8.5 中文手册

TiDB v8.1 中文手册

TiDB v8.2 中文手册

TiDB v8.0 中文手册