HBase最佳实践及优化有效容量54TB – 数据量大,增长迅速,但数据库的扩容工程施工风险 高 • 数据风险高 – 灾难恢复依赖磁带,业务中断时间长 • 效率低 – 关系数据库处理困难,查询慢(超过15秒) – 关系数据库入库慢,常有清单文件积压,不能实时入 库,从而不能实时查询 Postgres Conference China 2016 中国用户大会 基于Hadoop的清帐单系统架构 新版清帐单系统采用了基于 Conference China 2016 中国用户大会 系统部署 • NameNode节点:3台 • DataNode(数据存储节点): 178台 • Zookeeper节点:7台 • 集群监控节点:1台 • 入库服务节点:24台 • Web查询应用服务节点:20台 • 机架间通过万兆交换机连接 • 网络冗余 DCN网络 IP承载网 客服系统 A 省 GGSN SGSN Gn口 产创平台 考虑增加handler数目或硬件资源 • 更常见的情况是95%-99%的写入都很快,但有些 写入非常慢,甚至慢上万倍,一般问题在服务器端: – 写入Memstore慢 • HLog写入超时——考虑HDFS及硬盘异常 • GC——考虑优化内存使用(GC参数及算法调优有限) – Flush慢 • HFile写入超时——考虑HDFS及硬盘异常 • Compaction被触发且运行时间长——优化高峰期Compaction0 码力 | 45 页 | 4.33 MB | 1 年前3
HBase基本介绍分布式的, 本身hdfs的是分布式的容错的, 在借助region和cf的⽔水平垂直分表, 整个数据可以很好的分散 持久化的, ⼤大部分数据都是基于hdfs的持久化,(btw 顺序写磁盘, 速度不不慢) Sorted map. 整个数据模型就是⼀一个按key排序的⼤大Map, Agenda Data Model Architecture & Component Schema design ⼀一开始想吐槽这种模型设计, 后来看google论⽂文说⼈人家参考了了很多模型最终才决 定这样设计的…. • 简单⾼高效, 可以作为其他应⽤用的基础 • OpenTSDB: 时序数据库, 主要是监控数据这类的 • JanusGraph: 图数据库, 知识图谱 • GeoMesa: 时空位置数据库 • Kylin: OLAP, ⽤用HBase存cube • Phoenix: region数 50-100 • 列列族数量量 1-3 • 每个region⼤大⼩小 10G-50G • 每个cell⼤大⼩小 10M Schema设计 Schema设计 OpenTSDB 存监控指标的时序数据库 [salt]0 码力 | 33 页 | 4.86 MB | 1 年前3
共 2 条
- 1













