Greenplum机器学习⼯具集和案例问题 ● 更更好地理理解不不同种 类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ● 对实时API请求进 ⾏行行分类和安全检测 ● 数据量量⼤大,现有数 据分析团队缺乏技 能 客户 数据科学解决⽅方案 ● 某⼤大型跨国⾦金金 融服务公司 ● 移动应⽤用 API 分析 ● 使⽤用Madlib进⾏行行聚 类分析,建⽴立会话 识别模型和主题模 型 抽取会话特征 根据原始特征 对用户聚类 验证聚 类结果 评分 对API请求结合超时和 K-means聚类处理理 主题模型 对主题进⾏行行K- means聚类 S 标记回话 ⼈人⼯工审查 新会话 建模过程 2017.thegiac.com 会话识别 API 请求 ⽇日志 对API请求结合超时和 K-means聚类处理理 建模过程 2017 会话1 会话2 会话3 基于时间的会话化 时间+聚类 2017.thegiac.com 会话识别 API 请求 ⽇日志 建模过程 对API请求结合超时和 K-means聚集处理理 2017.thegiac.com 会话识别 API 请求 ⽇日志 抽取会话特征 根据原始特征 对用户聚类 建模过程 对API请求结合超时和 K-means聚集处理理0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1配置基于内存限制的查询终止 分配资源组给ROLE 监控资源组状态 转移查询的资源组 资源组基于角色或基于外部组件 GP 有两类资源组,分别是为 ROLE 管理资源的资源组和为外部组件(如 PL/Container)管理资源的资源组。资源组最普遍的用途是用于限制 GP 数据库中活 Greenplum Database 管理员指南 小部分来查找结果。如果使用了分区表,扫描的数据可能会更少。通常,商业智能(BI) 的查询需要返回大量的数据,这种情况下使用索引未必有效。 GP建议在没有添加索引的情况下先测试一下查询的性能。索引更易于改善OLTP类 型查询的性能,一般,索引查询期望返回很少量的数据。在返回少量结果的场景下,索 引同样可以改善压缩AO表上查询的性能,当情况合适时优化器会把索引作为获取数据 的选择,而不是一味的全表扫描。对于压缩数据来说,索引访问数据时只解压需要的记 图的管理难度,因为在GP中视图是有强依赖关系的,当需要删除并重建(CREATE OR REPLACE命令不可以修改视图的字段定义)某个视图时,所有依赖该视图的上层视图, 都需要被删除。 有两类使用视图的方式是应该避免的,刚刚讲的多层视图还有其他弊端: 定义了很多层的视图,最后的查询语句看起来很简单 -- 这样的设计看起来一点 都不酷,因为当遇到问题需要排查时,执行计划可能会变得很复杂,导致无从下手。0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 最佳实践分享物理模型对于系统性能有很大影响,因此需要我们特别关注。 以下来自于在某大型银行的使用经验: 行存储和列存储: • 避免过多使用列存储的原因是防止小档数过多。 • 列存储能够提升查询性能,对于更新和全字段类操作性能反而会下降 • 对于少数频繁查询的宽表,例如交易表、帐户表、客户表等采用列存储,其它表采用行存储 数据压缩: • 在金融业,行压缩的数据压缩比在1:6左右,一般采用zlib5级压缩 使用B-Tree索引,对于区别度低的字段(<10000),采用 Bitmap索引; • 表关联时,一般不需要建索引,如果where条件的筛选性很强,建立索引可以让系统性能提升 • 对于大数据类系统,应避免使用PK,UI,FK,唯一性约束或参考性检查将导致性能大幅下降; • 大数量更新时,应先删除索引,更新/加载数据后再重建索引,或者采用分区交换降低对目标表的影响 临时空间的监控和管理0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum 精粹文集易扩展等方面的卓越表现是分不开的 。 1. 高吞吐 该客户大数据平台的 ODS 区,接入了源端近百个业务系统的生产数据, 每天需要加载进来的数据大概 5TB 左右。标准化处理完成后,需要给 后端的公共访问、类别繁多的沙箱类应用供数。 每月月初,业务繁忙时段,保守估计平均每天需要给下游系统提供 10TB 的压缩数据。如此大规模数据处理,加上严格的数据时效性要求, 不选择 Greenplum 这种吞吐性能特别优秀的产品,很难满足业务部门 致坏盘在读写性能非常差的情况下仍然对外提供服务,最终将整个 集群拖慢。 ·如果客户的实际应用还存在大量较高并发的小 IO 操作,比如随机 查询,可以考虑 SSD+SAS+ 表空间的方式,并将随机 IO 类应用对 应的表放在 SSD 设备上,从而有效的隔离底层 IO,达到更好 SLA。 某电信用户存在大量对 400 个字段以上大宽表的随机查询场景,之 前由于 IO 资源争用,在批量作业调起时随机查询响应时间显著增加,0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 架构概览MySQL 的主从模型、Redis 的主从模型 在 Master-Segment 模型下,⾸先 Master 节点不存储数据,其次就是数据将会以分⽚的⽅式存储在多个 Segment 节点中。这⾥可以 类⽐ Redis Cluster,只不过 Redis Cluster 是去中⼼化的。在 Master-Segment 模型中通常也会包含 Master-Slave 模型,也就是增 加数据副本,以实现⾼可⽤0 码力 | 1 页 | 734.79 KB | 1 年前3
Greenplum 6新特性:
在线扩容工具GPexpand剖析localoid 表的OID policytype 分布类型 ‘p’ 分区 ‘r’ 复制表 numsegments 表分布在多少个节点上 diskkey 分布列的序号 distclass 分布列的操作类 GPExpand简介与具体用法 • GPExpand是Greenplum的扩容工具,可以为集群增加新的节 点来支持更大容量的存储和更高的计算能力。 • 随着Greenplum一起安装发布,在$GPHOME/bin下面,和其0 码力 | 37 页 | 1.12 MB | 1 年前3
Greenplum备份恢复浅析table 2017 年象行中国(杭州 站)第一期 gpcrondump⽤法(3/3) gpcrondump命令使用--list-backup-files可以将备份产生的所有文件都列举 出来,分为两类,分别是: 1. Pipes files 包括每个segment的数据文件(可以流式输出)、master产 生的post_data文件包含indexes, triggers, primary key0 码力 | 17 页 | 1.29 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考数据仓库体系架构 架构的具体技术实现 • 轻量级数据仓库 —— Inforbright – 与MySQL数据库结合,易使用,冷热分离 – 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明0 码力 | 43 页 | 9.66 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台5:新一代数据平台 作为能够独立于专用硬件加速提供高性能的纯软件数据平台,Greenplum 可根据客户需求在任何位置运行。借助这种“不 受限于基础架构”的方法,可以在本地或多云环境(私有云或公有云)中部署同一类型的分析数据库。 无论在商业化的 Pivotal Greenplum 或是开源的 Greenplum Database 中,这种不受限于基础架构的方法的大部分优势都 具有同样强大的作用。在 Greenplum0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum 编译安装和调试调试模式 gpinitsystem 有一个 -D 选项,使用这个选项可以看到更多的输出信息,根据这些额外的输出信息 可以发现并解决大部分问题。 2.2.2 查看日志 常用的日志文件有两类,一种是 gpinitsystem 的日志,一种是数据库的日志。它们分别保存在不 同的目录下: ● gpinitsystem 的日志文件。默认路径为 ~/gpAdmin/gpinitsystem_***0 码力 | 15 页 | 2.07 MB | 1 年前3
共 11 条
- 1
- 2













