HBase最佳实践及优化典型用户案例:Data Storage • 场景 – 用于收集并存储非结构化以及半结构化数据 – 数据存储要求可靠 – 保证数据强一致性 – 数据可被排序以便提供低延时的随机查询 • 案例 – 原始日志查询系统 – 在线指标查询系统 • 主要组件 – HBase, Flume, Sqoop 10 Postgres Conference China 2016 中国用户大会 HBase适用场景 基于Hadoop的清帐单系统架构 新版清帐单系统采用了基于 Hadoop的大数据平台,使用 分布式文件系统HDFS,数据存 储则采用了分布式数据库 HBase,同时结合云计算的其 他组件构成 清帐单 原始数据 3台FTP 服务器 Hadoop集群 Hadoop分布式计 算引擎 MapReduce Hadoop分布式数 据库HBase Hadoop分布式 SQL查询框架 Hive 清单 BOSS 采用MapReduce/Hive作用统计分析和 数据挖掘工具 【关键性能指标】 – 每日入库>5TB数据 – 上网记录入库时间:一般小于30分钟, 实际约10分钟 – 存储全国移动用户不小于6个月的原始 上网记录,统计分析中间报表数据保存 不小于5年 – 上网记录查询速度:不高于1秒(不含 用户访问查询页面的时间) – 支持并发查询数目:1000请求/秒 Postgres Conference0 码力 | 45 页 | 4.33 MB | 1 年前3
HBase基本介绍⽇日志时间作为version时间 • 其余作为10列列 1个ID, 100条⾏行行为(100个版本), 10列列 = 1000个KV对: id存了了1000次, 时间存了了1000次, 所有列列名(location这个字符串串)存了了100次 1个ID, 100条⾏行行为(100个版本), 1列列 = 100个KV对 寻迹数据 场景 千亿级PV, 万亿个KV对 寻迹数据 对⽐比 这⾥里里先对⽐比 前两⾏行行.0 码力 | 33 页 | 4.86 MB | 1 年前3
共 2 条
- 1













