2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰RPC DataNode 基于位图的分布式计算引擎 API Server Scheduler SQL-Parser QueryOptimier Column1 DataNode Column2 Column3 ColumnN Column1 DataNode Column2 Column3 ColumnN bitmap 画像下钻分布式计算引擎 多维 提取 iData大数据分析引擎 iData大数据分析引擎 分布式多维计算引擎 基于位图索引和行式内容存储 分布式画像引擎 基于位图索引和列式内容存储 多维 分析 跟踪 分析 下钻 分析 透视 分析 画像 分析 一切以用户价值为依归 19 业务应用实践 iData 2 旧画像系统 Block 1 Block 2 Block … Storage Scheduler Data Stats Gather 1 Block 2 Block … DataNode-2 Block 1 Block 2 Block … DataNode-3 DataNode-1 指标计算平台 Ø 分布式计算 • 并行计算 Ø 列式存储 • 按需加载减少IO • 可支持大量列 Ø 动态位图索引 • 缓存上次结果 • 成本低、命中率高 核心特点 Bitmap Filter Builder0 码力 | 26 页 | 3.58 MB | 1 年前3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎虚拟集群最少两台机器在不同的机房; Ø 数据独立,多写,相互不干扰; Ø 数据读取通过应用程序做负载平衡; Ø 灵活创建不同的虚拟集群用于适当的场合; Ø 随时调整服务器,新增/缩减服务器; 分布式: k8s的集群式部署 全球敏捷运维峰会 广州站 采用ClickHouse后平台的查询性能 system.query_log表,记录已经 执行的查询记录 query:执行的详细SQL,查询相关记录可以 左右表join的时候要注意数据量的变化; • 是否采用分布式; • 监控好服务器的cpu/内存波动/`system`.query_log; • 数据存储磁盘尽量采用ssd; • 减少数据中文本信息的冗余存储; • 特别适用于数据量大,查询频次可控的场景,如数据分析,埋点日志系统; 全球敏捷运维峰会 广州站 StarRocks应用小结 • 发挥分布式的优势,要提前做好分区字段规划; • 支持0 码力 | 15 页 | 1.33 MB | 1 年前3
4. ClickHouse在苏宁用户画像场景的实践苏宁科技集团.大数据中心.杨兆辉 1 关亍我 苏宁科技集团大数据中心架构师 曾就职亍中兴通讯10+years ,从事大规模分布式系统研发 10+years C++、Java、Go编程经验,熟悉大数据架构、解决方案 ClickHouse Contributor Github: https://github ch_label_dist_double ch_label_dist_date 查询 分布式表 标签数据表 HDFS 导入 HDFS上采用snappy.parquet格式存储数据。 采用AB表切换方式,避免查询和写入的冲突,标签数据表以日期结尾命名。 通过重建分布式表迚行AB表切换,指向丌同日期的标签数据表。 通过增加标签数据表的副本数,提升幵发性能。0 码力 | 32 页 | 1.47 MB | 1 年前3
8. Continue to use ClickHouse as TSDB引入辅助索引,加快数据检索 速度 低成本存储 • 列式存储结合高效的编码 • Delta、XOR 等适合时序场景的压缩算法 • 通过 Rollup 功能,对历史数据做聚合,减少数据量 稳定可扩展 • 分布式架构 • 数据多副本存储 • 服务高可用 Thanks For You0 码力 | 42 页 | 911.10 KB | 1 年前3
共 4 条
- 1













