水平拡張 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

HBase基本介绍

sorted map. 回顾: 稀疏的, ⾏行行和列列⽐比较随意, 不不需要固定的schema, 没有值的位置不不占空间分布式的, 本身hdfs的是分布式的容错的, 在借助region和cf的⽔水平垂直分表, 整个数据可以很好的分散持久化的, ⼤大部分数据都是基于hdfs的持久化,(btw 顺序写磁盘, 速度不不慢) Sorted map. 整个数据模型就是⼀一个按key排序的⼤大Map 就要有node. 如图可以看出RegionServer和Datanode尽量量在同⼀一台机器器上. • ⽔水平按rowkey分开 region • Pre-split: 0-5 6-10 • Auto-split: size • 垂直按CF分开系统组成 Region ⽔水平按rowkey分. 这个分两步, 第⼀一个是在建表的时候指定分的⽅方式. ⽐比如两个split, 0-5 6-10 6-10 ⾃自动分区是指⼀一个region⼤大⼩小超了了 region的概念. 这个很类似关系数据库⾥里里我们说⽔水平/垂直分表的意思. • 读缓存: BlockCache • 写缓存: Memstore • 写操作⽇日志: WAL • 数据⽂文件: HFile 系统组成 RegionServer 深⼊入RegionServer内部. 有两个Cache和两种⽂文件 • 先写WAL做故障恢复⽤用

0 码力 | 33 页 | 4.86 MB | 1 年前
3
HBase最佳实践及优化

高效的随机读取 – 对于数据的某一个子集能够进行有效地扫描 • 具有容错特性，能够将数据持久化的非易失性存储中 – 使用HDFS做底层存储，可利用Hadoop的压缩 Codec等减少空间占用 • 自动水平扩展 – 只需要加入新的结点即可提高存储容量和吞吐量 – 服务器能够被动态加入或者删除（用以维护和升级） – 服务器自动调整负载平衡 5 Postgres Conference China 2016 高峰期到每秒10个 20MB文件） – 对联机分析必须提供标准编程接口，支持SQL/JDBC/ODBC等 • 高可扩展和高可用 – 用户程序查询数据不需要知道底层细节，比如数据分布细节 – 可以水平扩展 – 允许多台机器故障的场景下，业务不中断 Postgres Conference China 2016 中国用户大会原有方案：小型机+存储+Oracle • 成本高、扩展性差 – 价格昂贵

0 码力 | 45 页 | 4.33 MB | 1 年前
3

共 2 条前往

页

HBase 基本介绍最佳实践优化

分类

语言

格式

HBase基本介绍

HBase最佳实践及优化