HBase最佳实践及优化Conference China 2016 中国用户大会 关于我… 陈飚 Cloudera售前技术经理、资深方案架构师 http://biaobean.pro 原Intel Hadoop发行版核心开发人员, 成功实施并运维多 个上百节点Hadoop大数据集群。 – 曾在Intel编译器部门从事服务器中间件软件开发,擅长服务器软件调 试与优化,与团队一起开发出世界上性能领先的XSLT 语言处理器 28 Postgres Conference China 2016 中国用户大会 行记录设计 • 采用多行存储还是单行多列存储? • 将数据另存储为一行还是”覆盖”存储为列(Column)的不同版 本 • 将数据另存储为一行还是增加一个列 • 建议 • 通常情况下的回答: 分行存储 » 能获得更好的Get以及scan的性能 » 太长的行记录不利于做Region的split • 行设计必须符合数据原子性操作要求 Region中StoreFile的个数,如果CompactionQueue队列长度过 长(如>10)或增长过快,则需要考虑调整Compaction参数 – 注意查看Region以及StoreFile的大小,确认是否因为太多过小文 件的原因导致文件数目多。如是,需要检查内存使用及设置 • 主要参数 – hbase.hstore.compactionThreshold,建议值10 – hbase.hstore.blockingStoreFiles,建议值300 码力 | 45 页 | 4.33 MB | 1 年前3
HBase基本介绍• ’表/⾏行行/列列’ • Row Key • ColumnFamily列列族 : ColumnQualifier列列限定名 • Version/Timestamp 分数:语⽂文 数据模型 逻辑视图 整个HBase和关系数据库很像, 但⼜又要时时注意两者的区别. 右⾯面我继续以⼀一次考试学⽣生分数距离. ⾸首先也有表/⾏行行/列列这三个概念. hbase最⼩小就是⼀一个table 然后是列列, 这⾥里里hbase要求我们把列列做个分类, 叫列列族. 这⾥里里我分了了两个ColumnFamily, 分数和图⽚片 每个列列族名+列列限定名⽤用冒号连起来组成列列名, ⽐比如 分数:语⽂文. 然后我⼜又有图⽚片列列族, 只有⼀一列列头像, 存的是⼆二进制的图⽚片内容 然后hbase⼜又引⼊入了了版本概念, 就是图上这个 ⾏行行 交 列列 的每⼀一个格⼦子 都可以有多个版本的值, 我没有画出来0 码力 | 33 页 | 4.86 MB | 1 年前3
共 2 条
- 1













