-
无共享架构,从而更将这种并行计算能力发挥到极致,除此之 外,MPP 采用两阶段提交和全局事务管理机制来保证集群上分布式事 务的一致性,Greenplum 像 Postgresql 一样满足关系型数据库的包括 ACID 在内的所有特征。 从上图可以看到,Greenplum 的最小并行单元不是节点层级,而是在 实例层级。安装过 Greenplum 的同学应该都看到每个实例都有自己 的 Postgresql 目录结构,都有各自的一套 的特性,SQL-On-Hadoop 大多不 支持数据局部更新和删除功能 (update/delete);例如 Spark 计算时, 需要预先将数据装载到 DataFrames 模型中; 基本上都缺少索引和存储过程等特征 除 HAWQ 外,大多对于 ODBC/JDBC/DBI/OLEDB/.NET 接口的支持 有限,与主流第三方 BI 报表工具的兼容性不如 MPP 数据库 SQL-On-Hadoop 不擅长于交互式(interactive)的 开放性的特性给客户带来的好处,不只是硬件厂商和型号的选择范围, 也包含工程实施过程的便利性。2014 年,该客户大数据平台需要进行 数据搬迁,Greenplum 采用了旧环境数据备份、传输、新环境恢复的 方案,停机时间实际只花了不到 4 天。 相比较而言,其他封闭式系统,需要压缩并备份数据,倒腾出整套设 备搬迁到新数据中心,然后再导入新数据,影响或暂停业务几十天。 两种方案从工程复杂度、人力投入、业务影响来说,开放式架构所带
0 码力 |
64 页 |
2.73 MB
| 1 年前 3
-
5:新一代数据平台 关于本白皮书 Pivotal 最近推出全球第一个开源、支持多云的高级分析数据平台——Pivotal Greenplum 5。本白皮书着眼介绍 Greenplum 5 的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 Python 版本升级为 2.7。PL/Python 和 Python 管理实用程序现在均以版本 2.7 为基础。 总结 Greenplum 5 是 Pivotal 推出的新一代数据平台,在对经过十几年工程设计投入的产品进行改进的同时带来了多项新功能, 可以帮助组织满足其企业数据仓库和高级分析需求。这个新版本扩充了客户的部署选项,除了目前支持的本地平台以外, 还获得了其他几种云平台的认证。它提供了一个
0 码力 |
9 页 |
690.33 KB
| 1 年前 3
-
系,可以根据用户的实际需求进行评估和实施。 目前,编者的一键式集群配置安装初始化命令已经内置了两种镜像模式,分别为 RING 和 PAIR。RING 是一种带有环状关系的镜像模式,典型的特征是,一组机器形成 对等的环,环上的每台机器,其对应的 Mirror 会散落在后面的一台或者多台机器上, 这种模式包含了 gpinitsystem 命令缺省支持的两种镜像模式:GROUP 和 SPREAD。 第二章:分布式数据库概念 GP 是一个分布式数据库集群系统。这就意味着在物理上,数据是存储在多个数据 库上的(称为 Instance)。这些独立的数据库通过网络进行通信(称为内联网络)。分 布式数据库的一个基本特征是,用户和客户端程序在访问时如同访问一个单机数据库 (GP 访问 Master)一样方便,数据库内部的分布式实现不需要用户过多的关心,对于 客户端应用来说,访问 GP 数据库与单机数据库没有什么区别。不过,对于开发人员和 是唯一性最好的字段,但是,不建议为了选择一个分布键而去增加一个主键,这是一种 逻辑颠倒的做法,通常,应该选择一个常用于大表之间关联的某个唯一性较高的字段作 为分布键,一般这个字段可能在其他某个表中具有主键特征,例如,客户 ID,例如会 员卡号,例如手机号码,例如身份证号码,等等,在选择分布键时,仅需要考虑大表与 大表之间的关联,任何涉及到小表关联的场景均不应作为选择分布键的考虑因素。 如果可以,
0 码力 |
416 页 |
6.08 MB
| 1 年前 3
-
- 营销 - 在线注册 - ⽹网⻚页浏览历史 - 地理理信息数据 - 业务部⻔门信息 - ⽹网站⽤用户信息 • TB 级别数据 • 1000+ 特征 平台 建模⼯工具 PL/pgSQL 数据和技术预览 2017.thegiac.com 数据整理理 数据准备 信息价值和证据权 重 成对相关性 删除⾼高度相关变量量 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 特征⽣生成 验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 逻辑回归 Elastic Net 特征选择 模型 1 2 3 4 5 6 改进后的 in-database 流程 2017.thegiac ⾏行行代码 ● 75 分钟 ● 116 ⾏行行代码 ● 8 分钟 9.35x 特征编辑 ● 439 特征 ● 4,517 ⾏行行代码 ● 100 分钟 ● 934 特征 ● 1,438 ⾏行行代码 ● 30 分钟 多 495 个特征,快 3.33x 信息价值 ● ~450 个变量量,~30分 钟计算结果并写⼊入 excel
0 码力 |
58 页 |
1.97 MB
| 1 年前 3
-
Year - 3 非结构化数据向量检索, “以图搜图” (规划中) 场景应用: 1、Web App把图片或者视频等非结构化数据 通过特征提取服务,提取特征向量,并写入 AnalyticDB for PG的向量表。 2、Web App检索的时,把非结构化数据通过 特征提取服务接口提取出向量,同时调用 AnalyticDB for PG的查询分析接口做查询。 特点: • 易用,结构化和非结构化数据关联查询。 准确性高,阿里自研向量检索算法。 Web APP AnalyticDB for PostgreSQL AnalyticDB for PostgreSQL Client 特征提取服 务 5.检索分析 1.注册特征提取服务 3.写入url 4.生成特征 2.写入非 结构化数 OSS 音频 图片 文本 向量 ①GPU的计算性能加速 ②支持Greenplum 6.0版本 其他演进规划: 更快性能
0 码力 |
22 页 |
2.98 MB
| 1 年前 3
-
与传统的全文搜索(主要依赖于精确的关键词匹配和词频)不同,向量搜索通过将不同类型的数据(如文 本、图像或音频)转换为高维向量,并根据这些向量之间的相似度来进行查询。这种搜索方法能够捕捉数据 的语义特征和上下文信息,从而更准确地理解用户意图。 即使搜索的词语与数据库中的内容不完全匹配,向量搜索仍然可以通过对数据语义的理解,找到与用户意图 相符合的结果。 例如,搜索 “一种会游泳的动物” 时,全 向量嵌入 向量嵌入 (vector embedding) 也称为嵌入 (embedding) ,是在高维空间中用于表示现实世界对象的数字序列。它 可以捕捉文档、图像、音频和视频等非结构化数据的语义特征和上下文。 向量嵌入在机器学习中至关重要,是语义相似性搜索的基础。 TiDB 专门引入了向量数据类型以及向量搜索索引,用于优化向量嵌入的存储和检索,增强其在人工智能领域 的应用。你可以使用向量类型在 种嵌入模型。在切换模型时,你 需要评估改变嵌入模型对向量查询准确性的影响。 一些嵌入模型,如 OpenAI text-embedding-3-large,支持缩短向量嵌入,即在不丢失向量表示的概念特征的 情况下,从向量序列末尾移除一些数字。你也可以使用这种嵌入模型来减少向量维数。 4.8.4.4 在结果输出中排除向量列 向量嵌入数据通常很大,而且只在搜索过程中使用。通过从查询结果中排除向量列,可以显著减少
0 码力 |
5072 页 |
104.05 MB
| 10 月前 3
-
与传统的全文搜索(主要依赖于精确的关键词匹配和词频)不同,向量搜索通过将不同类型的数据(如文 本、图像或音频)转换为高维向量,并根据这些向量之间的相似度来进行查询。这种搜索方法能够捕捉数据 的语义特征和上下文信息,从而更准确地理解用户意图。 即使搜索的词语与数据库中的内容不完全匹配,向量搜索仍然可以通过对数据语义的理解,找到与用户意图 相符合的结果。 例如,搜索 “一种会游泳的动物” 时,全 向量嵌入 向量嵌入 (vector embedding) 也称为嵌入 (embedding) ,是在高维空间中用于表示现实世界对象的数字序列。它 可以捕捉文档、图像、音频和视频等非结构化数据的语义特征和上下文。 向量嵌入在机器学习中至关重要,是语义相似性搜索的基础。 TiDB 专门引入了向量数据类型以及向量搜索索引,用于优化向量嵌入的存储和检索,增强其在人工智能领域 的应用。你可以使用向量类型在 种嵌入模型。在切换模型时,你 需要评估改变嵌入模型对向量查询准确性的影响。 一些嵌入模型,如 OpenAI text-embedding-3-large,支持缩短向量嵌入,即在不丢失向量表示的概念特征的 情况下,从向量序列末尾移除一些数字。你也可以使用这种嵌入模型来减少向量维数。 4.8.4.4 在结果输出中排除向量列 向量嵌入数据通常很大,而且只在搜索过程中使用。通过从查询结果中排除向量列,可以显著减少
0 码力 |
5095 页 |
104.54 MB
| 10 月前 3
-
v8.1.0 �→ 开始 GA)
通过资源组的规则,TiDB 能够自动识别出运行超出预期的查询,并对该查询进行限流或取消处理。 �→ 即使没有被规则识别,你仍然可以手动添加查询特征以及采取对应的措施, �→ 从而降低突发的查询性能问题对整个数据库的影响。 | 数据库管理与可观测性 | 支持观测索引使用情况(从 v8.0.0 Runaway Query。该功能通过 WATCH 子句实现,当某一个查询被识别为 Runaway Query 之后,会提取这 个查询的匹配特征(由 WATCH 后的匹配方式参数决定),在接下来的一段时间里(由 DURATION 定义),这个 Runaway Query 的匹配特征会被加入到监控列表,TiDB 实例会将查询和监控列表进行匹配,匹配到的查询直接 标记为 Runaway Query,而不再等待其 PLAN 表示通过 Plan Digest 匹配所有模式 (Pattern) 相同的 SQL WATCH 中的 DURATION 选项,用于表示此识别项的持续时间,默认为无限长。 添加监控项后,匹配特征和 ACTION 都不会随着 QUERY_LIMIT 配置的修改或删除而改变或删除。可以使用 QUERY WATCH REMOVE 来删除监控项。 QUERY_LIMIT 具体格式如下: 765 0 码力 |
4807 页 |
101.31 MB
| 1 年前 3 -
Runaway Query。该功能通过 WATCH 子句实现,当某一个查询被识别为 Runaway Query 之后,会提取这 个查询的匹配特征(由 WATCH 后的匹配方式参数决定),在接下来的一段时间里(由 DURATION 定义),这个 Runaway Query 的匹配特征会被加入到监控列表,TiDB 实例会将查询和监控列表进行匹配,匹配到的查询直接 标记为 Runaway Query,而不再等待其 PLAN 表示通过 Plan Digest 匹配所有模式 (Pattern) 相同的 SQL WATCH 中的 DURATION 选项,用于表示此识别项的持续时间,默认为无限长。 添加监控项后,匹配特征和 ACTION 都不会随着 QUERY_LIMIT 配置的修改或删除而改变或删除。可以使用 QUERY WATCH REMOVE 来删除监控项。 QUERY_LIMIT 具体格式如下: 参数 QUERY WATCH 语句说明 语法详见QUERY WATCH。 参数说明如下: 801 • RESOURCE GROUP 用于指定资源组。此语句添加的 Runaway Queries 监控特征将添加到该资源组的监控列表 中。此参数可以省略,省略时作用于 default 资源组。 • ACTION 的含义与 QUERY LIMIT 相同。此参数可以省略,省略时表示识别后的对应操作采用此时资源组中 0 码力 |
4987 页 |
102.91 MB
| 10 月前 3 -
Runaway Query。该功能通过 WATCH 子句实现,当某一个查询被识别为 Runaway Query 之后,会提取这 个查询的匹配特征(由 WATCH 后的匹配方式参数决定),在接下来的一段时间里(由 DURATION 定义),这个 Runaway Query 的匹配特征会被加入到监控列表,TiDB 实例会将查询和监控列表进行匹配,匹配到的查询直接 标记为 Runaway Query,而不再等待其 表示通过 Plan Digest 匹配所有模式 (Pattern) 相同的 SQL 781 WATCH 中的 DURATION 选项,用于表示此识别项的持续时间,默认为无限长。 添加监控项后,匹配特征和 ACTION 都不会随着 QUERY_LIMIT 配置的修改或删除而改变或删除。可以使用 QUERY WATCH REMOVE 来删除监控项。 QUERY_LIMIT 具体格式如下: 参数 5.3 QUERY WATCH 语句说明 语法详见QUERY WATCH。 参数说明如下: • RESOURCE GROUP 用于指定资源组。此语句添加的 Runaway Queries 监控特征将添加到该资源组的监控列表 中。此参数可以省略,省略时作用于 default 资源组。 782 • ACTION 的含义与 QUERY LIMIT 相同。此参数可以省略,省略时表示识别后的对应操作采用此时资源组中 0 码力 |
4805 页 |
101.28 MB
| 1 年前 3
|