 Greenplum 精粹文集车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单 是反潮流的),数据处理过程分成 Map-〉 Shuffle-〉Reduce 的过程,相比 MPP 数据库并行计算而言, Mapreduce 的数据在计算前未经整理和组织(只是做了简单数据 分块,数据无模式),而 MPP 预先会把数据有效的组织(有模式), 例如:行列表关系、Hash 分布、索引、分区、列存储等、统计信 息收集等,这就决定了在计算过程中效率大为不同: ·MAP 效率对比 Hadoop 的 数据库从已一开始就是开放的技术,并且在 2015 年 年底已经开源和成立社区(在开源第一天就有上千个 Download), 可以说,Greenplum 已经不仅仅只是 Pivotal 公司一家的产品,我们相 信越来越多组织和个人会成为 Greenplum 的 Contributor 贡献者,随 着社区的发展将推动 GreenplumMPP 数据库走向新的高速发展旅程。 (分享一下开源的直接好处,最近我们某用户的一个特殊需求,加载0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单 是反潮流的),数据处理过程分成 Map-〉 Shuffle-〉Reduce 的过程,相比 MPP 数据库并行计算而言, Mapreduce 的数据在计算前未经整理和组织(只是做了简单数据 分块,数据无模式),而 MPP 预先会把数据有效的组织(有模式), 例如:行列表关系、Hash 分布、索引、分区、列存储等、统计信 息收集等,这就决定了在计算过程中效率大为不同: ·MAP 效率对比 Hadoop 的 数据库从已一开始就是开放的技术,并且在 2015 年 年底已经开源和成立社区(在开源第一天就有上千个 Download), 可以说,Greenplum 已经不仅仅只是 Pivotal 公司一家的产品,我们相 信越来越多组织和个人会成为 Greenplum 的 Contributor 贡献者,随 着社区的发展将推动 GreenplumMPP 数据库走向新的高速发展旅程。 (分享一下开源的直接好处,最近我们某用户的一个特殊需求,加载0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商range(time) ( START (1469980800) END (1488297600) EVERY (86400) ); 其中,id 为记录序号,通过 serial(序列)实现⾃增;uuid 存储⽤⼾组织 ID 或者⽤⼾的 IP;item_id 为代表某种分析项的 id(分析项如IP流量、TCP包量、TCP重传率等);time为时间戳; data为数据。 样本数据如下图所⽰: UDW 使⽤案例 time, data FROM t_unetanalysis_data where uuid='xxx' and item_id=xxx and time>xxx and time Greenplum数据仓库UDW - UCloud中立云计算服务商range(time) ( START (1469980800) END (1488297600) EVERY (86400) ); 其中,id 为记录序号,通过 serial(序列)实现⾃增;uuid 存储⽤⼾组织 ID 或者⽤⼾的 IP;item_id 为代表某种分析项的 id(分析项如IP流量、TCP包量、TCP重传率等);time为时间戳; data为数据。 样本数据如下图所⽰: UDW 使⽤案例 time, data FROM t_unetanalysis_data where uuid='xxx' and item_id=xxx and time>xxx and time- 组织 id 为 50200021 的⽤⼾查询⼀个星期内 ip 的出量(item_id为17), SELECT time, data FROM t_unetanalysis_data where uuid= 0 码力 | 206 页 | 5.35 MB | 1 年前3
 Pivotal Greenplum 5: 新一代数据平台Python 管理实用程序现在均以版本 2.7 为基础。 总结 Greenplum 5 是 Pivotal 推出的新一代数据平台,在对经过十几年工程设计投入的产品进行改进的同时带来了多项新功能, 可以帮助组织满足其企业数据仓库和高级分析需求。这个新版本扩充了客户的部署选项,除了目前支持的本地平台以外, 还获得了其他几种云平台的认证。它提供了一个同时支持传统和新型分析工作负载的环境,可帮助客户消除分析孤岛。此外,0 码力 | 9 页 | 690.33 KB | 1 年前3 Pivotal Greenplum 5: 新一代数据平台Python 管理实用程序现在均以版本 2.7 为基础。 总结 Greenplum 5 是 Pivotal 推出的新一代数据平台,在对经过十几年工程设计投入的产品进行改进的同时带来了多项新功能, 可以帮助组织满足其企业数据仓库和高级分析需求。这个新版本扩充了客户的部署选项,除了目前支持的本地平台以外, 还获得了其他几种云平台的认证。它提供了一个同时支持传统和新型分析工作负载的环境,可帮助客户消除分析孤岛。此外,0 码力 | 9 页 | 690.33 KB | 1 年前3
 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 17 白皮书 | 17 总结 Greenplum 新一代 HTAP 数据平台,在帮助组织满足其企业数据仓库和高级分析需求的情况下,又创新性在对产品进 行改进带来了多项新功能,并且大大提升了事务处理性能 。正是由于社区的开放性和纯软件的中立性,与欧拉开源社区 合作让社区新版本扩充了客0 码力 | 17 页 | 2.04 MB | 1 年前3 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 17 白皮书 | 17 总结 Greenplum 新一代 HTAP 数据平台,在帮助组织满足其企业数据仓库和高级分析需求的情况下,又创新性在对产品进 行改进带来了多项新功能,并且大大提升了事务处理性能 。正是由于社区的开放性和纯软件的中立性,与欧拉开源社区 合作让社区新版本扩充了客0 码力 | 17 页 | 2.04 MB | 1 年前3
 Greenplum Database 管理员指南 6.2.1件或者事务文件使用,该文件空间将不能 被删除。在6版本开始,如果表空间被临时文件或者事务文件使用,该表空间将不能被 删除。 创建与管理模式 模式(Schema)是在DB内组织对象的一种逻辑结构。模式可以允许用户在一个DB 内不同的模式之间使用相同Name的对象(例如Table)。 缺省"Public"模式 每个新创建的DB都有一个缺省的模 part p2 WHERE p1.brand = p2.brand) AS foo FROM part p1; 关联子查询 关联子查询提供了一种使用其他查询结果来组织结果的方法。GP支持关联子查询, 其为很多已有的应用提供了兼容性。关联子查询是一个普通的SELECT查询,其WHERE Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 P中这种 表达式会被优化器优化掉。 不要在复杂的表达式中利用函数的副作用,更不要在WHERE和HAVING子句中利用 函数的副作用,因为在生成执行计划时,这些表达式可能会被优化掉,或者被重新组织 顺序或者逻辑结构。 如果一定要强制评估的顺序,可以选择CASE结构。例如,这样在WHERE子句中避 免被0除是靠不住的: =# SELECT . . . WHERE x <> 00 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1件或者事务文件使用,该文件空间将不能 被删除。在6版本开始,如果表空间被临时文件或者事务文件使用,该表空间将不能被 删除。 创建与管理模式 模式(Schema)是在DB内组织对象的一种逻辑结构。模式可以允许用户在一个DB 内不同的模式之间使用相同Name的对象(例如Table)。 缺省"Public"模式 每个新创建的DB都有一个缺省的模 part p2 WHERE p1.brand = p2.brand) AS foo FROM part p1; 关联子查询 关联子查询提供了一种使用其他查询结果来组织结果的方法。GP支持关联子查询, 其为很多已有的应用提供了兼容性。关联子查询是一个普通的SELECT查询,其WHERE Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 P中这种 表达式会被优化器优化掉。 不要在复杂的表达式中利用函数的副作用,更不要在WHERE和HAVING子句中利用 函数的副作用,因为在生成执行计划时,这些表达式可能会被优化掉,或者被重新组织 顺序或者逻辑结构。 如果一定要强制评估的顺序,可以选择CASE结构。例如,这样在WHERE子句中避 免被0除是靠不住的: =# SELECT . . . WHERE x <> 00 码力 | 416 页 | 6.08 MB | 1 年前3
共 5 条
- 1













