ClickHouse在B站海量数据场景的落地实践ClickHouse在B站海量数据场景的落地实践 胡甫旺 哔哩哔哩OLAP平台 目录 vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点,30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括(不限于): Cluster-01 Cluster-02 Cluster-n 。。。 ClickHouse Yuuni 定制开发的 ClickHouse-JDBC 与ClickHouse兼容的 HTTP 接口 请求管理/流量控制 查询缓存 查询分发器 查询处理器 ClickHouse 监控管理平台 元数据管理 库表管理 权限管理 埋点分析 报表平台 HDFS/Hive Kafka/Databus Berserker数据源管理: Ø 建表 Ø 修改表元数据 Ø 表元数据管理 v Yuuni: Ø 屏蔽集群信息 Ø 原⽣JDBC,HTTP接⼜ Ø 读写分离 Ø 动态查询缓存 Ø 流量控制 v 监控管理平台: Ø 统计⼤盘 Ø 回归测试 Ø 接⼊评估 Ø 数据迁移 Ø 数据重平衡 v 交互式分析查询:Superset提供即时查询能⼒ v 离线写⼊服务 (Rider)0 码力 | 26 页 | 2.15 MB | 1 年前3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎全球敏捷运维峰会 广州站 基于ClickHouse+StarRocks 构建支撑千亿级数据量的高可用查询引擎 演讲人:蔡岳毅 全球敏捷运维峰会 广州站 1. 为什么选择ClickHouse/StarRocks; 2. ClickHouse/StarRocks的高可用架构; 3. 如何合理的应用ClickHouse的优点,StarRocks 如何来补充ClickHouse 的短板; 全球敏捷运维峰会 广州站 根据实际业务场景需要来选择 1. 不固定的查询条件,不固定的汇总条件; 2. 数据量日益增量,每天要更新的数据量也不断增大; 3. 业务场景不断增多,涉及面越来越广; 4. 需要保证高可用并秒出; 5. 从Sql,Es, CrateDB, Kylin,Ingite,MongoDB,Hbase 不断的研究,实践; 全球敏捷运维峰会 广州站 ClickHouse 全球敏捷运维峰会 广州站 StarRocks的特点 优点: 1. 支持标准的SQL语法,兼容MySql协议; 2. MPP架构,扩缩容非常简单方便; 3. 支持高并发查询; 4. 跨机房部署,实现最低成本的DR 缺点: 1. 不支持大规模的批处理; 2. 支持insert into,但最理想的是消费Kafka; 全球敏捷运维峰会 广州站 ClickHouse/StarRocks在酒店数据智能平台的架构0 码力 | 15 页 | 1.33 MB | 1 年前3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰部署与监控管理 1 立体监控模型: 监控分层 监控项 敏感度 紧急度 应用层 业务指标,数据异常 低 高 服务层 错误日志 中 中 请求指标 扫描详情 响应耗时 物理层 磁盘IO, 持续负载,流量 高 低 一切以用户价值为依归 业务应用实践 iData 14 2 一切以用户价值为依归 15 业务应用实践 iData 2 一切以用户价值为依归 l 游戏数据分析的业务背景 l0 码力 | 26 页 | 3.58 MB | 1 年前3
3. 数仓ClickHouse多维分析应用实践-朱元清单数据同步至clichouse数据 仓库 Oracle数据平台 • 通过kettle每天 定时导出文件至 本地 Etl服务器 • 通过clickhouse- client将文本导 入ck数据库 clickhouse数据库 数 仓 建 设 01 ck数仓数据模型采用星型模型搭建 02 数 仓 建 设 – 维度表 一般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary)0 码力 | 14 页 | 3.03 MB | 1 年前3
2. Clickhouse玩转每天千亿数据-趣头条2:注意监控zookeeper的指标(排队请求?处理延迟?等等),排队请求太多可能会导致插入失败 我们遇到的问题 关于引擎选择 推荐Replicated*MergeTree引擎 1:安全,数据安全,业务安全 2:升级的时候可以做到业务无感知 3:提升查询的并发度 广告时间0 码力 | 14 页 | 1.10 MB | 1 年前3
共 5 条
- 1













