 蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎构建支撑千亿级数据量的高可用查询引擎 演讲人:蔡岳毅 全球敏捷运维峰会 广州站 1. 为什么选择ClickHouse/StarRocks; 2. ClickHouse/StarRocks的高可用架构; 3. 如何合理的应用ClickHouse的优点,StarRocks 如何来补充ClickHouse 的短板; 4. ClickHouse的调优,运维介绍; 5. 应用总结; 全球敏捷运维峰会 支持标准的SQL语法,兼容MySql协议; 2. MPP架构,扩缩容非常简单方便; 3. 支持高并发查询; 4. 跨机房部署,实现最低成本的DR 缺点: 1. 不支持大规模的批处理; 2. 支持insert into,但最理想的是消费Kafka; 全球敏捷运维峰会 广州站 ClickHouse/StarRocks在酒店数据智能平台的架构 全球敏捷运维峰会 广州站 ClickHouse的全量数据同步流程 分区名 FROM A_temp 全球敏捷运维峰会 广州站 针对ClickHouse的保护机制 1. 被动缓存; 2. 主动缓存; 全球敏捷运维峰会 广州站 ClickHouse集群架构 Ø 虚拟集群最少两台机器在不同的机房; Ø 数据独立,多写,相互不干扰; Ø 数据读取通过应用程序做负载平衡; Ø 灵活创建不同的虚拟集群用于适当的场合; Ø 随时调整服务器,新增/缩减服务器;0 码力 | 15 页 | 1.33 MB | 1 年前3 蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎构建支撑千亿级数据量的高可用查询引擎 演讲人:蔡岳毅 全球敏捷运维峰会 广州站 1. 为什么选择ClickHouse/StarRocks; 2. ClickHouse/StarRocks的高可用架构; 3. 如何合理的应用ClickHouse的优点,StarRocks 如何来补充ClickHouse 的短板; 4. ClickHouse的调优,运维介绍; 5. 应用总结; 全球敏捷运维峰会 支持标准的SQL语法,兼容MySql协议; 2. MPP架构,扩缩容非常简单方便; 3. 支持高并发查询; 4. 跨机房部署,实现最低成本的DR 缺点: 1. 不支持大规模的批处理; 2. 支持insert into,但最理想的是消费Kafka; 全球敏捷运维峰会 广州站 ClickHouse/StarRocks在酒店数据智能平台的架构 全球敏捷运维峰会 广州站 ClickHouse的全量数据同步流程 分区名 FROM A_temp 全球敏捷运维峰会 广州站 针对ClickHouse的保护机制 1. 被动缓存; 2. 主动缓存; 全球敏捷运维峰会 广州站 ClickHouse集群架构 Ø 虚拟集群最少两台机器在不同的机房; Ø 数据独立,多写,相互不干扰; Ø 数据读取通过应用程序做负载平衡; Ø 灵活创建不同的虚拟集群用于适当的场合; Ø 随时调整服务器,新增/缩减服务器;0 码力 | 15 页 | 1.33 MB | 1 年前3
 4. ClickHouse在苏宁用户画像场景的实践苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ,从事大规模分布式系统研发  10+years C++、Java、Go编程经验,熟悉大数据架构、解决方案  ClickHouse Contributor  Github: https://github ES的DSL诧法对用户丌太友好,用户学习成 本高。 Kafka Flink 18 ClickHouse替换ES存储标签数据  ClickHouse Manager负责ClickHouse集群管理、元数据管理以及节点负载协调  tag-generate负责标签数据构建,保存到HDFS(MySQL中存储标签配置信息)  tag-loader向ClickHouse发送从HDFS导入标签数据的sql  用户ID字段,表示符合标签表达式的用户ID集合。 例如: user_list 8 10 11 12 27 用户画像场景3—用户ID清单—示例 画像条件 查询SQL 28 用户画像新架构的优势  每个标签的数据可以幵行构建,加快标签数据生产速度。  HDFS文件幵发导入ClickHouse,加快标签数据的就绪速度。  查询请求平均响应时长在2秒以下,复杂查询在10秒内。0 码力 | 32 页 | 1.47 MB | 1 年前3 4. ClickHouse在苏宁用户画像场景的实践苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ,从事大规模分布式系统研发  10+years C++、Java、Go编程经验,熟悉大数据架构、解决方案  ClickHouse Contributor  Github: https://github ES的DSL诧法对用户丌太友好,用户学习成 本高。 Kafka Flink 18 ClickHouse替换ES存储标签数据  ClickHouse Manager负责ClickHouse集群管理、元数据管理以及节点负载协调  tag-generate负责标签数据构建,保存到HDFS(MySQL中存储标签配置信息)  tag-loader向ClickHouse发送从HDFS导入标签数据的sql  用户ID字段,表示符合标签表达式的用户ID集合。 例如: user_list 8 10 11 12 27 用户画像场景3—用户ID清单—示例 画像条件 查询SQL 28 用户画像新架构的优势  每个标签的数据可以幵行构建,加快标签数据生产速度。  HDFS文件幵发导入ClickHouse,加快标签数据的就绪速度。  查询请求平均响应时长在2秒以下,复杂查询在10秒内。0 码力 | 32 页 | 1.47 MB | 1 年前3
 2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰一切以用户价值为依归 6 部署与监控管理 1 线性平滑扩容: 扩容: 1.安装新部署新的shard分片机器 2.新shard上创建表结构 3.批量修改当前集群的配置文件增加新的分片 4.名字服务添加节点 一切以用户价值为依归 7 部署与监控管理 1 大批量,少批次 WriteModel BatchSize RowLengt h QPM IOUtils Partitions FailedInserts 数据化驱动服务 场景视图: TGlog 服务端采集 腾讯游戏 服务器 腾讯游戏 移动客户端 微信 小游戏 WEB 游戏 海外 游戏 TDM-SDK 客户端采集 特性 采集 大数据基础 PaaS平台 游戏 营销活动 Dbbinlog 数据库采集 Game DB 数 据 管 理 + 元 数 据 TDBANK 准实时传输管道 Kafka-Pipeline 实时管道 数据可视化 游 谱 游戏说 神秘 商店 iData 多维提取 … 游戏数据 驱动场景 潘多拉 社交与功能 用户增长 服务场景 游戏 社区 微信手Q 渠道投放 直播 电竞 … 大数据基础PaaS平台 n 标准化、海量数据接入能力 n 实时化、低延时对接数据应用 n 异构化兼容能力 大数据应用PaaS服务 游戏数据驱动场景 n 实时干预游戏用户 n 精细化、精准化驱动场景服务0 码力 | 26 页 | 3.58 MB | 1 年前3 2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰一切以用户价值为依归 6 部署与监控管理 1 线性平滑扩容: 扩容: 1.安装新部署新的shard分片机器 2.新shard上创建表结构 3.批量修改当前集群的配置文件增加新的分片 4.名字服务添加节点 一切以用户价值为依归 7 部署与监控管理 1 大批量,少批次 WriteModel BatchSize RowLengt h QPM IOUtils Partitions FailedInserts 数据化驱动服务 场景视图: TGlog 服务端采集 腾讯游戏 服务器 腾讯游戏 移动客户端 微信 小游戏 WEB 游戏 海外 游戏 TDM-SDK 客户端采集 特性 采集 大数据基础 PaaS平台 游戏 营销活动 Dbbinlog 数据库采集 Game DB 数 据 管 理 + 元 数 据 TDBANK 准实时传输管道 Kafka-Pipeline 实时管道 数据可视化 游 谱 游戏说 神秘 商店 iData 多维提取 … 游戏数据 驱动场景 潘多拉 社交与功能 用户增长 服务场景 游戏 社区 微信手Q 渠道投放 直播 电竞 … 大数据基础PaaS平台 n 标准化、海量数据接入能力 n 实时化、低延时对接数据应用 n 异构化兼容能力 大数据应用PaaS服务 游戏数据驱动场景 n 实时干预游戏用户 n 精细化、精准化驱动场景服务0 码力 | 26 页 | 3.58 MB | 1 年前3
 2. ClickHouse MergeTree原理解析-朱凯ClickHouse MergeTree原理解析 朱凯@深圳 2019.10 朱 凯 远光软件 大数据事业部/平台开发部 总经理 资深架构师,腾讯云TVP专家 10多年IT从业经验,精通Java、Nodejs等语言方向 著有: 《企业级大数据平台构建:架构与实现》、 《ClickHouse原理解析与开发实战》(连载写作中) 珠海总部园 区占地面积 6 万平方米 珠海、北京、武汉 3 区、数据副本和数据采样这些特 性,同时也只有此系列的表引擎支持ALTER相关操作。 合并树家族 其中MergeTree作为家族中最基础的表引擎,提供了主键索引、数据分区、数据副 本和数据采样等所有的基本能力,而家族中其他的表引擎则在MergeTree的基础之 上各有所长。 MergeTree的名称由来 MergeTree在写入一批数据时,数据总会以数据片段的形式写入磁盘,且数据 片段不0 码力 | 35 页 | 13.25 MB | 1 年前3 2. ClickHouse MergeTree原理解析-朱凯ClickHouse MergeTree原理解析 朱凯@深圳 2019.10 朱 凯 远光软件 大数据事业部/平台开发部 总经理 资深架构师,腾讯云TVP专家 10多年IT从业经验,精通Java、Nodejs等语言方向 著有: 《企业级大数据平台构建:架构与实现》、 《ClickHouse原理解析与开发实战》(连载写作中) 珠海总部园 区占地面积 6 万平方米 珠海、北京、武汉 3 区、数据副本和数据采样这些特 性,同时也只有此系列的表引擎支持ALTER相关操作。 合并树家族 其中MergeTree作为家族中最基础的表引擎,提供了主键索引、数据分区、数据副 本和数据采样等所有的基本能力,而家族中其他的表引擎则在MergeTree的基础之 上各有所长。 MergeTree的名称由来 MergeTree在写入一批数据时,数据总会以数据片段的形式写入磁盘,且数据 片段不0 码力 | 35 页 | 13.25 MB | 1 年前3
 ClickHouse在B站海量数据场景的落地实践目录 vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点,30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括(不限于): Ø ⽇志&Trace分析 Ø ⽤户⾏为分析(包括事件分析,漏⽃分析,路径分析等) ⼴告DMP(包括统计分析,⼈群预估) Ø 电商交易分析 Ø OGV内容分析 Ø APM (Application Performance Management) 基于ClickHouse的交互式OLAP技术架构 Cluster-01 Cluster-02 Cluster-n 。。。 ClickHouse Yuuni 定制开发的 ClickHouse-JDBC 与ClickHouse兼容的 HTTP0 码力 | 26 页 | 2.15 MB | 1 年前3 ClickHouse在B站海量数据场景的落地实践目录 vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点,30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括(不限于): Ø ⽇志&Trace分析 Ø ⽤户⾏为分析(包括事件分析,漏⽃分析,路径分析等) ⼴告DMP(包括统计分析,⼈群预估) Ø 电商交易分析 Ø OGV内容分析 Ø APM (Application Performance Management) 基于ClickHouse的交互式OLAP技术架构 Cluster-01 Cluster-02 Cluster-n 。。。 ClickHouse Yuuni 定制开发的 ClickHouse-JDBC 与ClickHouse兼容的 HTTP0 码力 | 26 页 | 2.15 MB | 1 年前3
 2. Clickhouse玩转每天千亿数据-趣头条read only mode”,插入失败 分析: clickhouse对zookeeper的依赖还是很重的,有大量的数据需要写到zookeeper上面,数据Part都在 zookeeper上面有个节点与之对应以及表的元数据信息等等. 解决: 1:zookeeper机器的snapshot文件和log文件最好分盘存储(推荐SSD)提高ZK的响应 2:zookeeper的snapshot文件存储盘不低于1T0 码力 | 14 页 | 1.10 MB | 1 年前3 2. Clickhouse玩转每天千亿数据-趣头条read only mode”,插入失败 分析: clickhouse对zookeeper的依赖还是很重的,有大量的数据需要写到zookeeper上面,数据Part都在 zookeeper上面有个节点与之对应以及表的元数据信息等等. 解决: 1:zookeeper机器的snapshot文件和log文件最好分盘存储(推荐SSD)提高ZK的响应 2:zookeeper的snapshot文件存储盘不低于1T0 码力 | 14 页 | 1.10 MB | 1 年前3
 3. 数仓ClickHouse多维分析应用实践-朱元演讲人:朱元 日期: 2019-10-20 所遇问题 目录 CONTENTS 现状背景 应用实践 01 数据链路长 现状 即席查询性能差 数据压缩率低 需求响应慢 02 数据架构 数据同步ck 01 1,基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本 因此采用可视化同步工具kettle. 先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据0 码力 | 14 页 | 3.03 MB | 1 年前3 3. 数仓ClickHouse多维分析应用实践-朱元演讲人:朱元 日期: 2019-10-20 所遇问题 目录 CONTENTS 现状背景 应用实践 01 数据链路长 现状 即席查询性能差 数据压缩率低 需求响应慢 02 数据架构 数据同步ck 01 1,基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本 因此采用可视化同步工具kettle. 先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据0 码力 | 14 页 | 3.03 MB | 1 年前3
 6. ClickHouse在众安的实践大规模在线任务监控、自动模型性能监测、 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 追溯与可重现 洞察平台架构 Why Clickhouse? Clickhosue 性能 高效的数据导入和查询性能 开源 低成本,免费 压缩比 高度的数据压缩比,存储成本更小 面向列 真正的面向列存储, 支持高维度表0 码力 | 28 页 | 4.00 MB | 1 年前3 6. ClickHouse在众安的实践大规模在线任务监控、自动模型性能监测、 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 追溯与可重现 洞察平台架构 Why Clickhouse? Clickhosue 性能 高效的数据导入和查询性能 开源 低成本,免费 压缩比 高度的数据压缩比,存储成本更小 面向列 真正的面向列存储, 支持高维度表0 码力 | 28 页 | 4.00 MB | 1 年前3
 8. Continue to use ClickHouse as TSDB引入辅助索引,加快数据检索 速度 低成本存储 • 列式存储结合高效的编码 • Delta、XOR 等适合时序场景的压缩算法 • 通过 Rollup 功能,对历史数据做聚合,减少数据量 稳定可扩展 • 分布式架构 • 数据多副本存储 • 服务高可用 Thanks For You0 码力 | 42 页 | 911.10 KB | 1 年前3 8. Continue to use ClickHouse as TSDB引入辅助索引,加快数据检索 速度 低成本存储 • 列式存储结合高效的编码 • Delta、XOR 等适合时序场景的压缩算法 • 通过 Rollup 功能,对历史数据做聚合,减少数据量 稳定可扩展 • 分布式架构 • 数据多副本存储 • 服务高可用 Thanks For You0 码力 | 42 页 | 911.10 KB | 1 年前3
共 9 条
- 1













