Greenplum机器学习⼯具集和案例载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure Language PLPython, PLR 2017.thegiac 现有数据分析流程 繁琐,速度慢,有 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公 司 ● 简化Data 流程 ● 在Madlib上重新建 模和预测 ● 实现流程全⾃自动化 背景 2017.thegiac.com 数据源 • 客户数据 - 购买 - 预定 - 营销 - 在线注册 - ⽹网⻚页浏览历史0 码力 | 58 页 | 1.97 MB | 1 年前3
TiDB v8.4 中文手册全表扫 描。 44 变量名 修改类型 描述 tidb_ �→ scatter �→ _ �→ region 修改 在 v8.4.0 之前, 该变量 为布尔 型,仅 支持开 启或关 闭,且 开启后 新建表 的 Region 只支持 表级别 打散。 从 v8.4.0 开始, 增加 SESSION 作用域, 类型由 布尔型 变更为 枚举型, 默认值 由原来 的 OFF 变更为 空,表 示不打 散表 Plan Cache 的 空闲内 存百分 比。 48 变量名 修改类型 描述 tidb_pre_ �→ split_ �→ regions �→ 新增 在 v8.4.0 之前, 要设置 新建表 默认的 行分裂 分片数, 需要在 每个 CREATE �→ TABLE �→ SQL 语句里 声明 PRE_ �→ SPLIT �→ _ �→ REGIONS �→ ,一 旦需要 同样配 置的表 SESSION 级别设 置该系 统变量, 提升易 用性。 49 变量名 修改类型 描述 tidb_ �→ shard_ �→ row_id �→ _bits 新增 在 v8.4.0 之前, 要设置 新建表 默认的 行 ID 的 分片数, 需要在 每个 CREATE �→ TABLE �→ 或 ALTER �→ TABLE �→ 的 SQL 语句 里声明 SHARD_ �→ ROW_ �→ ID_0 码力 | 5072 页 | 104.05 MB | 10 月前3
TiDB v8.5 中文手册全表扫 描。 49 变量名 修改类型 描述 tidb_ �→ scatter �→ _ �→ region 修改 在 v8.4.0 之前, 该变量 为布尔 型,仅 支持开 启或关 闭,且 开启后 新建表 的 Region 只支持 表级别 打散。 从 v8.4.0 开始, 增加 SESSION 作用域, 类型由 布尔型 变更为 枚举型, 默认值 由原来 的 OFF 变更为 空,表 示不打 散表 Plan Cache 的 空闲内 存百分 比。 53 变量名 修改类型 描述 tidb_pre_ �→ split_ �→ regions �→ 新增 在 v8.4.0 之前, 要设置 新建表 默认的 行分裂 分片数, 需要在 每个 CREATE �→ TABLE �→ SQL 语句里 声明 PRE_ �→ SPLIT �→ _ �→ REGIONS �→ ,一 旦需要 同样配 置的表 SESSION 级别设 置该系 统变量, 提升易 用性。 54 变量名 修改类型 描述 tidb_ �→ shard_ �→ row_id �→ _bits 新增 在 v8.4.0 之前, 要设置 新建表 默认的 行 ID 的 分片数, 需要在 每个 CREATE �→ TABLE �→ 或 ALTER �→ TABLE �→ 的 SQL 语句 里声明 SHARD_ �→ ROW_ �→ ID_0 码力 | 5095 页 | 104.54 MB | 10 月前3
Greenplum 排序算法堆排序 2 5 8 1 3 6 9 1 9 5 2 8 3 6 13 ● 重新建堆 堆排序 8 5 6 1 3 2 9 1 9 5 8 6 3 2 14 ● 移除堆顶元素 堆排序 2 5 6 1 3 8 9 1 9 5 2 6 3 8 15 ● 重新建堆 堆排序 6 5 2 1 3 8 9 1 9 5 6 2 3 8 16 ● ● 移除堆顶元素 堆排序 3 5 2 1 6 8 9 1 9 5 3 2 6 8 17 ● 重新建堆 堆排序 5 3 2 1 6 8 9 1 9 3 5 2 6 8 18 ● 堆只剩一个元素 堆排序 1 2 3 5 6 8 9 5 9 2 1 3 6 8 19 ● 移除堆顶元素,完成排序 堆排序 1 2 3 5 6 8 9 5 9 2 1 整堆,使其有 序。 ● 4. 如果新元组排序键小于lastkey,将该元组放入堆尾,并将堆的大小减1。 ● 5. 重复第2步,直至堆大小变为0。 ● 6. 顺串生成完毕。将堆大小重置为N,并重新建堆。重复第2步,开始生成下一 个顺串。 替换选择算法 25 ● 问题二:合并阶段假设存在N个输入缓冲区,如何高效的比较N个输入缓冲区的 最小值,并输出到输出缓冲区? 归并排序的三个问题 260 码力 | 52 页 | 2.05 MB | 1 年前3
阿里云云数据库 Redis 版 快速入门这个值是因内存满被淘汰掉的 key 的历史个数的 总和,所以它不是当前每秒淘汰的 key 的个数。 注意:如果发生主备切换,该值会以新的主库为准 。 UsedMemory 当前内存的使用值。 由于新建实例时会产生一定的元信息,所以对于主 从实例这个值最小是 30 MB,对于集群实例这个 数据的初始值为 30 MB乘以节点数,最小为 200 MB。 InFlow 后端 Redis 入口当前每秒的流量值,单位为 进入支付页面,选择支付方式,单击确认支付按钮。支付成功后会提示支付成功。等1-5分钟后进入 控制台即可看见刚才购买的实例。 说明:云数据库 Redis 版在产品行为上与 Redis 一致,当新建一个实例后它会自动生成一些数 据库元信息,因此在 Redis 控制台上会看到该实例已经有少量的存储空间被占用,这是正常现 象。 对于主从版和单节点实例,占用空间约为 32 MB。 测试运行。 至此完成通过 C/C++ 客户端连接云数据库 Redis。 .net 客户端 操作步骤如下所示: 下载并使用.net 客户端。 在.net 客户端中新建 .net 项目。 添加客户端引用,引用文件在库文件的 ServiceStack.Redis/lib/tests 中。 freeReplyObject(reply); /* Create0 码力 | 29 页 | 1.07 MB | 1 年前3
NetBackup™ for SQLite 管理指南: Windows 和 Linux - 版本:10.2(Linux) 登录到主服务器。 2 在“NetBackup 管理控制台”中,展开“NetBackup 管理”,然后单击“策 略”。 3 在“所有策略”窗格中,右键单击“所有策略的摘要”,然后单击“新建策 略”。 4 在“添加新策略”对话框中,为策略输入一个唯一的名称。 5 在“更改策略”对话框中,从“策略类型”下拉列表中选择“DataStore 策 略”。 6 从“策略存储”下拉列表中,为存储选择基于磁盘的存储单元。 应用程 序备份”日程表类型。 注意:XBSA 框架仅支持“应用程序备份”日程表类型。 8 在“客户端”选项卡下,单击“新建”,然后添加具有“NetBackup for SQLite 代理”的 NetBackup 客户端。 2 9 在“添加客户端”屏幕中,单击“新建”,然后键入具有 SQLite 服务器的客 户端的名称。 10 在“NetBackup 管理控制台”中,单击“NetBackup0 码力 | 29 页 | 675.75 KB | 1 年前3
PieCloudDB Database 社区版集群安装部署手册 V2.1等方式从外部接入 PieCloudDB 服务的。 5. 在左侧的菜单栏,点击 进入用户列表,主账户的用户有权利进行一些操作,例如 删除 附属用户、授予和收回用户的角色。 6. 同样,也可以在这个界面新建用户,点击右上角的 ,由自己来输入用户名、邮箱 和密码,并把这些信息给到新用户,后续激活用户和审核步骤与之前 中的步骤 一致。 7. 在菜单栏点击 ,查看现有的角色列表,主账户有四种预设的系统角色,分别是 3. 创建完集群后,可以在菜单栏点击 ,查看文件和数据库信息,默认的数据库是 “postgres”。如果需要新建文件,可以点击 ,命名为“file1”,点击选择数据库 “postgres”、集群“cluster1”,就可以在界面上书写查询语句了。 例如,如果需要新建一个名为 “公司数据库” 的数据库,可以通过以下 “CREATE DATABASE” 语句来实现。 如需执行查询,点击0 码力 | 42 页 | 1.58 MB | 1 年前3
NetBackup™ for SQLite 管理指南: Windows 和Linux(Linux) 登录到主服务器。 2 在“NetBackup 管理控制台”中,展开“NetBackup 管理”,然后单击“策 略”。 3 在“所有策略”窗格中,右键单击“所有策略的摘要”,然后单击“新建策 略”。 4 在“添加新策略”对话框中,为策略输入一个唯一的名称。 5 在“更改策略”对话框中,从“策略类型”下拉列表中选择“DataStore 策 略”。 6 从“策略存储”下拉列表中,为存储选择基于磁盘的存储单元。 “应用程 序备份”日程表类型。 注意:XBSA 框架仅支持“应用程序备份”日程表类型。 8 在“客户端”选项卡下,单击“新建”,然后添加具有“NetBackup for SQLite 代理”的 NetBackup 客户端。 9 在“添加客户端”屏幕中,单击“新建”,然后在“客户端名称”字段中,键 入该客户端的名称。 10 在“NetBackup 管理控制台”中,单击“NetBackup0 码力 | 34 页 | 777.04 KB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商条件中的列创建索引。 7. 避免创建冗余的索引:如果索引开头⼏列重复出现在多个索引中,这些索引就是冗余的。 � 8. 在⼤量数据加载时,删除索引:如果要向表中加载⼤量数据,考虑加载数据前删除索引,加载后重新建⽴索引的⽅法。这样的操作通常⽐带着索引加载要快。 9. 考虑聚簇索引:聚簇索引是指数据在物理上,按照索引顺序存储。如果您访问的数据在磁盘是随机存储,那么数据库就需要在磁盘上不断变更位置读取您需要的数据。如果数据更加紧 pg_size_pretty ---------------- 2126 MB ⽅法三:创建新表,导⼊数据 ⽅法三:创建新表,导⼊数据 CREATE TABLE...AS SELECT 命令把该表拷⻉为⼀个新表,新建的表将不会出现膨胀现象。然后删除原始表并且重命名拷⻉的表。 参考: https://gp-docs-cn.github.io/docs/best_practices/bloat.html https://docs 接着,便进⼊了解释器的新建⻚⾯,如下图: 接⼊第三⽅ BI ⼯具 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 156/206 输⼊解释器的名字(可任意),解释器分组选择jdbc。 保留并修改上图中连接数据仓库的配置参数,点选action下⾯的“x”删除其他⽆关参数。然后点击“Save”按钮,保存设置。 2)创建笔记 现在,你可以新建笔记来测试该Interpreter了。0 码力 | 206 页 | 5.35 MB | 1 年前3
TiDB v5.4 中文手册的过程中如果遇到问题,请参阅以下文档: • 分析慢查询 • 定位消耗系统资源多的查询 • TiDB 热点问题处理 • TiDB 集群故障诊断 • TiFlash 常见问题 除此之外,你可以在 Github Issues 新建一个 Issue 反馈问题,或者在 AskTUG 提交你的问题。 3.4.8 探索更多 • 如果要查看 TiFlash 版本、TiFlash 重要日志及系统表,请参阅TiFlash 集群运维。 3. 以 tidb 用户登录到中控机,执行以下命令。将 10.0.1.1 替换成你的部署目标机器 IP,按提示输入部署 目标机器 tidb 用户密码,执行成功后即创建好 SSH 互信,其他机器同理。新建的 tidb 用户下没有 .ssh 目录,需要执行生成 rsa 密钥的命令来生成 .ssh 目录。如果要在中控机上部署 TiDB 组件,需要为中控 机和中控机自身配置互信。 ssh-keygen -t 3.1.3 持续增量同步数据到 TiDB(可选) 5.3.1.3.1 前提条件 • 安装 DM 集群 • 获取 DM 所需上下游数据库权限 5.3.1.3.2 第 1 步:创建数据源 1. 新建source1.yaml文件, 写入以下内容: # 唯一命名,不可重复。 source-id: "mysql-01" # DM-worker 是否使用全局事务标识符 (GTID) 拉取 binlog。使用前提是上游0 码力 | 2852 页 | 52.59 MB | 1 年前3
共 45 条
- 1
- 2
- 3
- 4
- 5













