分布式消息引擎 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

全球敏捷运维峰会广州站基于ClickHouse+StarRocks 构建支撑千亿级数据量的高可用查询引擎演讲人：蔡岳毅全球敏捷运维峰会广州站 1. 为什么选择ClickHouse/StarRocks； 2. ClickHouse/StarRocks的高可用架构； 3. 如何合理的应用ClickHouse的优点，StarRocks 如何来补充ClickHouse 的短板；虚拟集群最少两台机器在不同的机房； Ø 数据独立，多写，相互不干扰； Ø 数据读取通过应用程序做负载平衡； Ø 灵活创建不同的虚拟集群用于适当的场合； Ø 随时调整服务器，新增/缩减服务器；分布式： k8s的集群式部署全球敏捷运维峰会广州站采用ClickHouse后平台的查询性能 system.query_log表，记录已经执行的查询记录 query：执行的详细SQL，查询相关记录可以左右表join的时候要注意数据量的变化； • 是否采用分布式； • 监控好服务器的cpu/内存波动/`system`.query_log； • 数据存储磁盘尽量采用ssd； • 减少数据中文本信息的冗余存储； • 特别适用于数据量大，查询频次可控的场景，如数据分析，埋点日志系统；全球敏捷运维峰会广州站 StarRocks应用小结 • 发挥分布式的优势，要提前做好分区字段规划； • 支持

0 码力 | 15 页 | 1.33 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

一切以用户价值为依归业务应用实践 iData 14 2 一切以用户价值为依归 15 业务应用实践 iData 2 一切以用户价值为依归 l 游戏数据分析的业务背景 l iData 数据分析引擎TGMars l 为什么选用ClickHouse l 平台在ClickHouse上的使用 16 业务应用实践 iData 2 腾讯游戏数据化驱动服务场景视图： TGlog 服务端采集 iData 2 新大数据分析引擎2.0 业界传统大数据分析引擎大数据分析引擎&存储 Analytical Engine & Database 大数据仓库 Hadoop Data Lake 计算引擎 MR & Spark Data Warehouse OLTP Big Data Analysis 数据报表多维聚合 iData大数据分析引擎 TGMars TGSpark Lake 计算引擎 MR & Spark Data Warehouse OLTP Big Data Analysis 多维聚合 iData New 超融合OLAP 大数据分析引擎TGMars 多维提取关联分析画像分析数据报表用户分群用户特征特征关联一切以用户价值为依归 18 业务应用实践 iData 2 新大数据分析引擎2.0 app-1

0 码力 | 26 页 | 3.58 MB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ，从事大规模分布式系统研发  10+years C++、Java、Go编程经验，熟悉大数据架构、解决方案  ClickHouse Contributor  Github: https://github 精确去重计数性能测试 6 ClickHouse在苏宁使用场景  OLAP平台存储引擎 -- 存储时序数据、cube加速数据，应用亍高基数查询、精确去重场景。  运维监控 -- 实时聚合分析监控数据，主要使用物化视图技术。  用户画像场景 -- 标签数据的存储、用户画像查询引擎。 7 Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap ch_label_dist_double ch_label_dist_date 查询分布式表标签数据表 HDFS 导入  HDFS上采用snappy.parquet格式存储数据。  采用AB表切换方式，避免查询和写入的冲突，标签数据表以日期结尾命名。  通过重建分布式表迚行AB表切换，指向丌同日期的标签数据表。  通过增加标签数据表的副本数，提升幵发性能。

0 码力 | 32 页 | 1.47 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

灵活快速自助洞察预警消息交互 Agenda. 数据分区 01 / 一级索引&二级索引 02 / 数据存储 03 / 数据标记 04 / 表引擎表引擎，是ClickHouse设计实现中的一大特色。可以说正是由表引擎，决定了一张数据表最终的性格，它拥有何种特性、数据以何种形式被存储以及如何被加载。 ClickHouse拥有非常庞大的表引擎体系，截至到目前(19.14.6)，共拥有合并树、内存、文件、接口和其他5大类20多种。合并树这众多的表引擎中，又属合并树(MergeTree)表引擎及其家族系列(*MergeTree)最为强大，在生产环境绝大部分场景中都应该使用此系列的表引擎。只有合并树系列的表引擎才支持主键索引、数据分区、数据副本和数据采样这些特性，同时也只有此系列的表引擎支持ALTER相关操作。合并树家族其中MergeTree作为家族中最基础的表引擎，提供了主键索引、数据分区、数据副据副本和数据采样等所有的基本能力，而家族中其他的表引擎则在MergeTree的基础之上各有所长。 MergeTree的名称由来 MergeTree在写入一批数据时，数据总会以数据片段的形式写入磁盘，且数据片段不可修改。为了避免片段过多，ClickHouse会通过后台线程定期合并这些数据片段，属于相同分区的数据片段会被合成一个新的片段。这种数据片段往复合并的特点也正是合并树的名称由来。

0 码力 | 35 页 | 13.25 MB | 1 年前
3
3. 数仓ClickHouse多维分析应用实践-朱元

clickhouse数据库数仓建设 01 ck数仓数据模型采用星型模型搭建 02 数仓建设 – 维度表一般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary) 数仓建设 – 主题事实清单表主题事实清单表采用引擎MergeTree. 同步策略: 每日从 oracle数据平台增量同步到ck数仓. 数仓建设 – 对外数据目前对外开放是主题事实清单表+维度表

0 码力 | 14 页 | 3.03 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

(这个时候snapshot文件到达2G+) 3.2：注意监控zookeeper的指标(排队请求?处理延迟?等等)，排队请求太多可能会导致插入失败我们遇到的问题关于引擎选择推荐Replicated*MergeTree引擎 1：安全，数据安全，业务安全 2：升级的时候可以做到业务无感知 3：提升查询的并发度广告时间

0 码力 | 14 页 | 1.10 MB | 1 年前
3
8. Continue to use ClickHouse as TSDB

引入辅助索引，加快数据检索速度低成本存储 • 列式存储结合高效的编码 • Delta、XOR 等适合时序场景的压缩算法 • 通过 Rollup 功能，对历史数据做聚合，减少数据量稳定可扩展 • 分布式架构 • 数据多副本存储 • 服务高可用 Thanks For You

0 码力 | 42 页 | 911.10 KB | 1 年前
3
6. ClickHouse在众安的实践

Clickhouse? Clickhosue 性能高效的数据导入和查询性能开源低成本，免费压缩比高度的数据压缩比，存储成本更小面向列真正的面向列存储，支持高维度表易观开源OLAP引擎测评报告洞察数据模型+Clickhouse 使用效果 CHAPTER 使用ck对百亿数据的探索 03 背景我们希望对保单、用户数据进行灵活分析，根据用户标签筛选出符合要求的客户进行精准营销。

0 码力 | 28 页 | 4.00 MB | 1 年前
3

共 8 条前往

页

分类

语言

格式

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

4. ClickHouse在苏宁用户画像场景的实践

2. ClickHouse MergeTree原理解析-朱凯

3. 数仓ClickHouse多维分析应用实践-朱元

2. Clickhouse玩转每天千亿数据-趣头条

8. Continue to use ClickHouse as TSDB

6. ClickHouse在众安的实践