读偏移 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

HBase最佳实践及优化

Postgres Conference China 2016 中国用户大会 HBase适用场景 • 高并发高性能读写访问场景 – 数据有随机更新、删除 – 数据写入性能高于读取性能，适合写多读少或数据加载有实时性要求的场景 • 需按主键排序的半结构化数据存储 • 支持基于固定有限条件的高并发高性能查询 • 高速计数器aggregation类型的任务 – HBase强一致性(Strongly 底层通过78台X3650 PC服务器组构建Hadoop集群,有效容量 138TB • 数据的分发、复制、任务调度、容错都是由系统软件来控制，同时具备线性的横向扩展能力 • 3份冗余的数据保证对硬件的容错和读处理的支持设备硬件设备数量 Hadoop 集群管理节点 IBM 3650 PC，双路六核，Intel X5650处理器， 2.66GHz主频，48GB内存，6*1TB SATA硬盘 1台 Hadoop集群 Postgres Conference China 2016 中国用户大会 Key对数据查询的影响 • 使用RowKey进行查询的性能最好 • 指定Timestamp能减少store file级别的读操作 – Bloom Filter也能达到同样目的 • 选择指定的Column Family可以减少查询需要读取的数据量 • 简单的纯基于filter的值查找是一个全表扫描操作 – 但使用filter可以减少网络传输数据量

0 码力 | 45 页 | 4.33 MB | 1 年前
3
HBase基本介绍

第⼀一个是在建表的时候指定分的⽅方式. ⽐比如两个split, 0-5 6-10 ⾃自动分区是指⼀一个region⼤大⼩小超了了 region的概念. 这个很类似关系数据库⾥里里我们说⽔水平/垂直分表的意思. • 读缓存: BlockCache • 写缓存: Memstore • 写操作⽇日志: WAL • 数据⽂文件: HFile 系统组成 RegionServer 深⼊入RegionServer内部写⼊入还没flush • 根据index去HFile⾥里里找 • HBase如何在hdfs这种append- only⽂文件系统上实现, 修改/删除操作的系统组成 RegionServer读操作这⾥里里需要提的⼀一点是, BlockCache⾥里里不不光对数据做了了缓存, 其实在RegionServer启动的时候, 会把所有region的索引信息加载进去. 系统组成 HFile

0 码力 | 33 页 | 4.86 MB | 1 年前
3

共 2 条前往

页

HBase 最佳实践优化基本介绍

分类

语言

格式

HBase最佳实践及优化

HBase基本介绍