 Greenplum 精粹文集49 4. 关于函数 首先,Greenplum 更喜欢动态 SQL,就是没有占位符的那种,因为所 有的变量都可以在编译时完全获取,尤其是分区条件,相信已经有大 批开发人员在 function 中深受此问题困扰多年。 其次,你也许和我一样,更喜欢在 function 中能够直接将变量写进 SQL,同时,极度厌烦字符串拼接的方式 ( 双竖线 ) 去拼凑 SQL。 不但如此,你还希望在 pgAdmin3 那么,plperl/plperlu 函数语言是你不二的选择,赶快拥抱吧,抛弃 sql 和 plpgsql。建议你在 plperl 中使用 qq{} (double quote) 来表示多 行字符串,其中可以直接使用各种变量表达式。如果你愿意,你还可 以把一些通用函数包装起来,打个 pm 包放到 perl 的系统目录中,然 后你的 function 就很美观了。同时,你还可以很容易的使用 eval 以 及 elog(level 章然后收藏起来,慢慢进步。 Big Date2.indd 49 16-11-22 下午3:38 50 七、加密 Greenplum 中的静态数据 近几年,数据外泄的问题甚为 猖獗,针对这一现象和相关的 监管要求,很多公司都在努力 提高数据安全性并对静态数 据启用加密功能,这同样也 适用于大数据,包括 Pivotal Greenplum 的用户。 Protegrity 是 Pivotal Greenplum0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集49 4. 关于函数 首先,Greenplum 更喜欢动态 SQL,就是没有占位符的那种,因为所 有的变量都可以在编译时完全获取,尤其是分区条件,相信已经有大 批开发人员在 function 中深受此问题困扰多年。 其次,你也许和我一样,更喜欢在 function 中能够直接将变量写进 SQL,同时,极度厌烦字符串拼接的方式 ( 双竖线 ) 去拼凑 SQL。 不但如此,你还希望在 pgAdmin3 那么,plperl/plperlu 函数语言是你不二的选择,赶快拥抱吧,抛弃 sql 和 plpgsql。建议你在 plperl 中使用 qq{} (double quote) 来表示多 行字符串,其中可以直接使用各种变量表达式。如果你愿意,你还可 以把一些通用函数包装起来,打个 pm 包放到 perl 的系统目录中,然 后你的 function 就很美观了。同时,你还可以很容易的使用 eval 以 及 elog(level 章然后收藏起来,慢慢进步。 Big Date2.indd 49 16-11-22 下午3:38 50 七、加密 Greenplum 中的静态数据 近几年,数据外泄的问题甚为 猖獗,针对这一现象和相关的 监管要求,很多公司都在努力 提高数据安全性并对静态数 据启用加密功能,这同样也 适用于大数据,包括 Pivotal Greenplum 的用户。 Protegrity 是 Pivotal Greenplum0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum机器学习⼯具集和案例特征 平台 建模⼯工具 PL/pgSQL 数据和技术预览 2017.thegiac.com 数据整理理 数据准备 信息价值和证据权 重 成对相关性 删除⾼高度相关变量量 逻辑回归 计算 KS 分值 模型验证 ⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 495 个特征,快 3.33x 信息价值 ● ~450 个变量量,~30分 钟计算结果并写⼊入 excel ● 在 GPDB 中花 58 秒计 算 ~200 个变量量的IV 13.7x/变量量 建模 ● < 50 个变量量,运⾏行行⼀一 次逻辑回归迭代需要 ~30 分钟 ● 376 个变量量,运⾏行行⼀一次 逻辑回归迭代需要 ~1.86 分钟 ~16x/迭代0 码力 | 58 页 | 1.97 MB | 1 年前3 Greenplum机器学习⼯具集和案例特征 平台 建模⼯工具 PL/pgSQL 数据和技术预览 2017.thegiac.com 数据整理理 数据准备 信息价值和证据权 重 成对相关性 删除⾼高度相关变量量 逻辑回归 计算 KS 分值 模型验证 ⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 495 个特征,快 3.33x 信息价值 ● ~450 个变量量,~30分 钟计算结果并写⼊入 excel ● 在 GPDB 中花 58 秒计 算 ~200 个变量量的IV 13.7x/变量量 建模 ● < 50 个变量量,运⾏行行⼀一 次逻辑回归迭代需要 ~30 分钟 ● 376 个变量量,运⾏行行⼀一次 逻辑回归迭代需要 ~1.86 分钟 ~16x/迭代0 码力 | 58 页 | 1.97 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商改变当前的⼯作⽬录 \encoding [编码] 显⽰或设置客⼾端编码 \h [名字] SQL命令的语法帮助 \set [名字 [值]] 设置内部变量 \timing 查询计时开关切换(默认关闭) \unset 名字 取消(删除)内部变量 3. 查询缓冲区选项 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 104/206 在⾮对⻬和对⻬的输出模式之间切换 \C [字串] 设置表标题, 如果参数空则取消标题 \f [字串] 为⾮对⻬查询输出显⽰或设置域分隔符 \H 在 HTML 输出模式之间切换 (当前是 关闭) \pset 变量 [值] 设置表的输出选项 \t 只显⽰⾏ (当前是 关闭) \T [字串] 设置 HTML <表> 标记属性, 如果没有参数就取消设置 \x 在扩展输出之间切换 (⽬前是 关闭) Java Zeppelin ⽀持的操作系统如下图所⽰。在安装 Zeppelin 之前,你需要在部署的服务器上安装 Oracle JDK 1.7 或以上版本, 并配置好相应的 JAVA_HOME 环境变量。 接⼊第三⽅ BI ⼯具 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 152/206 以CentOS为例,具体操作过程如下: a)0 码力 | 206 页 | 5.35 MB | 1 年前3 Greenplum数据仓库UDW - UCloud中立云计算服务商改变当前的⼯作⽬录 \encoding [编码] 显⽰或设置客⼾端编码 \h [名字] SQL命令的语法帮助 \set [名字 [值]] 设置内部变量 \timing 查询计时开关切换(默认关闭) \unset 名字 取消(删除)内部变量 3. 查询缓冲区选项 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 104/206 在⾮对⻬和对⻬的输出模式之间切换 \C [字串] 设置表标题, 如果参数空则取消标题 \f [字串] 为⾮对⻬查询输出显⽰或设置域分隔符 \H 在 HTML 输出模式之间切换 (当前是 关闭) \pset 变量 [值] 设置表的输出选项 \t 只显⽰⾏ (当前是 关闭) \T [字串] 设置 HTML <表> 标记属性, 如果没有参数就取消设置 \x 在扩展输出之间切换 (⽬前是 关闭) Java Zeppelin ⽀持的操作系统如下图所⽰。在安装 Zeppelin 之前,你需要在部署的服务器上安装 Oracle JDK 1.7 或以上版本, 并配置好相应的 JAVA_HOME 环境变量。 接⼊第三⽅ BI ⼯具 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 152/206 以CentOS为例,具体操作过程如下: a)0 码力 | 206 页 | 5.35 MB | 1 年前3
 Greenplum 编译安装和调试hard nofile 65536 * soft nproc 131072 * hard nproc 131072 $ sudo reboot # step 1. source一些环境变量, 例如PATH $ source $HOME/gpdb.master/greenplum_path.sh # step 2. 交换集群中所有机器的ssh密钥, 我们这里只有一台机器 40006 -M mirrorless -b 20 -C 18 -z 0" start 有时候单独执行各种命令没有问题,但是使用 SSH 执行时报错。 这通常是由于 ssh 改变了环境变量造成的,查看 .bash_profile, .bashrc, 发现 .bashrc 设 置了不同的默认 PGHOST,删除这个配置后就可以了。 2.2.6 不能连接到server:找不到domain typmod = -1, byval = t)|" 使用 lldb 的 gui 命令可以使用一个简单的源代码浏览器查看当前正在执行的代码区域,以及执行 函数的相关变量。 通过简单的断点和单步执行,可以快速了解SQL的执行过程。譬如上面例子中可以看到 cdbdisp_dispatchToGang 在 ExecutorStart 之后、ExecutorRun0 码力 | 15 页 | 2.07 MB | 1 年前3 Greenplum 编译安装和调试hard nofile 65536 * soft nproc 131072 * hard nproc 131072 $ sudo reboot # step 1. source一些环境变量, 例如PATH $ source $HOME/gpdb.master/greenplum_path.sh # step 2. 交换集群中所有机器的ssh密钥, 我们这里只有一台机器 40006 -M mirrorless -b 20 -C 18 -z 0" start 有时候单独执行各种命令没有问题,但是使用 SSH 执行时报错。 这通常是由于 ssh 改变了环境变量造成的,查看 .bash_profile, .bashrc, 发现 .bashrc 设 置了不同的默认 PGHOST,删除这个配置后就可以了。 2.2.6 不能连接到server:找不到domain typmod = -1, byval = t)|" 使用 lldb 的 gui 命令可以使用一个简单的源代码浏览器查看当前正在执行的代码区域,以及执行 函数的相关变量。 通过简单的断点和单步执行,可以快速了解SQL的执行过程。譬如上面例子中可以看到 cdbdisp_dispatchToGang 在 ExecutorStart 之后、ExecutorRun0 码力 | 15 页 | 2.07 MB | 1 年前3
 Greenplum Database 管理员指南 6.2.1......................................................................... - 288 - 为 gpadmin 用户配置环境变量 ................................................................................... - 290 - 第十三章:启动与停止 不能直接使 用客户端连接,如确有必要,需要使用 Utility 模式来连接。 要连接到 GP 的 Master,需要知道下面这些连接参数并在客户端程序进行正确的配置。 连接参数 描述 环境变量 Application name 连接到数据库的应用名称,该参数为可选项。 $PGAPPNAME Database name 需要连接的数据库名称。对于新初始化的系统来 说,首次访问可以使用 Name来使用。GP的 User Name 与 OS User Name 未必相同。 如果缺省参数值是错误的,可以选择将正确的值保存在环境变量 PGDATABASE、 PGHOST、PGPORT、PGUSER 中。设置 PGPASSWORD 环境变量,或者在~/.pgpass 文件中设置合适的值可以避免反复输入密码的麻烦。.pgpass 文件的格式为: hostname:port:d0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1......................................................................... - 288 - 为 gpadmin 用户配置环境变量 ................................................................................... - 290 - 第十三章:启动与停止 不能直接使 用客户端连接,如确有必要,需要使用 Utility 模式来连接。 要连接到 GP 的 Master,需要知道下面这些连接参数并在客户端程序进行正确的配置。 连接参数 描述 环境变量 Application name 连接到数据库的应用名称,该参数为可选项。 $PGAPPNAME Database name 需要连接的数据库名称。对于新初始化的系统来 说,首次访问可以使用 Name来使用。GP的 User Name 与 OS User Name 未必相同。 如果缺省参数值是错误的,可以选择将正确的值保存在环境变量 PGDATABASE、 PGHOST、PGPORT、PGUSER 中。设置 PGPASSWORD 环境变量,或者在~/.pgpass 文件中设置合适的值可以避免反复输入密码的麻烦。.pgpass 文件的格式为: hostname:port:d0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum上云与优化Public CGroup Kill –USR2 2016Postgres中国用户大会 未来规划 满足客户需求! 列存优化 – 某些场景下提高数倍性能 CPU优化 – 对GP执行器的静态编译优化 流式备份 – 实时的物理备份 社区参与 – 成为社区积极的贡献者 2016Postgres中国用户大会 2016Postgres中国用户大会0 码力 | 26 页 | 1.13 MB | 1 年前3 Greenplum上云与优化Public CGroup Kill –USR2 2016Postgres中国用户大会 未来规划 满足客户需求! 列存优化 – 某些场景下提高数倍性能 CPU优化 – 对GP执行器的静态编译优化 流式备份 – 实时的物理备份 社区参与 – 成为社区积极的贡献者 2016Postgres中国用户大会 2016Postgres中国用户大会0 码力 | 26 页 | 1.13 MB | 1 年前3
 Greenplum on Kubernetes
容器化MPP数据库云数据库背景 云数据库实现方案 Greenplum on Kubernetes Greenplum Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 → 半结构化/无模式 ○ 数据隔离 → 数据共享 ● 云数据库市场巨大 ● 云数据库增速巨大0 码力 | 33 页 | 1.93 MB | 1 年前3 Greenplum on Kubernetes
容器化MPP数据库云数据库背景 云数据库实现方案 Greenplum on Kubernetes Greenplum Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 → 半结构化/无模式 ○ 数据隔离 → 数据共享 ● 云数据库市场巨大 ● 云数据库增速巨大0 码力 | 33 页 | 1.93 MB | 1 年前3
共 7 条
- 1













