HBase最佳实践及优化Postgres Conference China 2016 中国用户大会 HBase适用场景 • 高并发高性能读写访问场景 – 数据有随机更新、删除 – 数据写入性能高于读取性能,适合写多读少或数据 加载有实时性要求的场景 • 需按主键排序的半结构化数据存储 • 支持基于固定有限条件的高并发高性能查询 • 高速计数器aggregation类型的任务 – HBase强一致性(Strongly 底层通过78台X3650 PC服务器组构建Hadoop集群,有效容量 138TB • 数据的分发、复制、任务调度、容错都是由系统软件来控制, 同时具备线性的横向扩展能力 • 3份冗余的数据保证对硬件的容错和读处理的支持 设备 硬件设备 数量 Hadoop 集群管理节点 IBM 3650 PC,双路六核,Intel X5650处理器, 2.66GHz主频,48GB内存,6*1TB SATA硬盘 1台 Hadoop集群 Postgres Conference China 2016 中国用户大会 Key对数据查询的影响 • 使用RowKey进行查询的性能最好 • 指定Timestamp能减少store file级别的读操 作 – Bloom Filter也能达到同样目的 • 选择指定的Column Family可以减少查询需 要读取的数据量 • 简单的纯基于filter的值查找是一个全表扫描 操作 – 但使用filter可以减少网络传输数据量0 码力 | 45 页 | 4.33 MB | 1 年前3
HBase基本介绍第⼀一个是在建表的时候指定分的⽅方式. ⽐比如两个split, 0-5 6-10 ⾃自动分区是指⼀一个region⼤大⼩小超了了 region的概念. 这个很类似关系数据库⾥里里我们说⽔水平/垂直分表的意思. • 读缓存: BlockCache • 写缓存: Memstore • 写操作⽇日志: WAL • 数据⽂文件: HFile 系统组成 RegionServer 深⼊入RegionServer内部 写⼊入还没flush • 根据index去HFile⾥里里找 • HBase如何在hdfs这种append- only⽂文件系统上实现, 修改/删除 操作的 系统组成 RegionServer读操作 这⾥里里需要提的⼀一点是, BlockCache⾥里里不不光对数据做了了缓存, 其实在RegionServer启动的时候, 会把所有region的索引信息加载进去. 系统组成 HFile0 码力 | 33 页 | 4.86 MB | 1 年前3
共 2 条
- 1













