目录操作 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

2. ClickHouse MergeTree原理解析-朱凯

Tree)最为强大，在生产环境绝大部分场景中都应该使用此系列的表引擎。只有合并树系列的表引擎才支持主键索引、数据分区、数据副本和数据采样这些特性，同时也只有此系列的表引擎支持ALTER相关操作。合并树家族其中MergeTree作为家族中最基础的表引擎，提供了主键索引、数据分区、数据副本和数据采样等所有的基本能力，而家族中其他的表引擎则在MergeTree的基础之上各有所长。作为分区 ID的取值。 l 使用其它类型如果分区键取值既不属于整型，也不属于日期类型，例如String、Float等。则通过128位Hash 算法取其Hash值作为分区ID的取值。分区目录的命名规则 PartitionID_MinBlockNum_MaxBlockNum_Level • PartitionID 分区ID，无需多说，对于分区ID的规则在上一小节中已经做过了详细的阐述。，那么计数n在单张MergeTree数据表内全局累加，n从1 开始，每当新创建一个分区目录时，计数n就会累积加1 。对于一个新的分区目录而言，MinBlockNum与 MaxBlockNum取值一样，同等于n。 • Level 合并的层级，可以理解为某个分区被合并过的次数。 Level计数与BlockNum有所不同，它并不是全局累加的。对于每一个新创建的分区目录而言，其初始值均为0。之后,以分区为单位，如果相同分区发生合并动作，则在相

0 码力 | 35 页 | 13.25 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

ClickHouse在B站海量数据场景的落地实践胡甫旺哔哩哔哩OLAP平台目录 vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点，30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括（不限于）：基于中间存储的Bulkload受HDFS和⽹络稳定性影响，且传输成本较⾼ v 直达ClickHouse的Bulkload稳定性，性能都更佳 Unique Engine v ⽬标：⽀持UpSert，Delete操作，提升查询性能 v 设计：delete on insert Unique Engine v write-write冲突依靠table level lock控制 v write-merge冲突：

0 码力 | 26 页 | 2.15 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

1：内存限制，对于一些大的查询会出现内存不够问题 2：存储限制，随着表越来多，磁盘报警不断 3：cpu限制 64G对于一些大表(每天600亿+)的处理，很容易报错，虽然有基于磁盘解决方案，但是会影响速度 clickhouse的数据目录还不支持多个数据盘，单块盘的大小限制太大 cpu需要根据实际情况而定解决： 1：机器的内存推荐128G+ 2：采用软连接的方式，把不同的表分布到不同的盘上面，这样一台机器可以挂载更多的盘最新版本的”冷热数据分离”特性，曲线救国 inserts. 分析： 1：直接落盘，异步merge - background_pool_size 2：一个Insert Request，涉及N个分区的数据，在磁盘上就会生成N个数据目录，merge跟不上 3：一个目录，一个zxid，zookeeper集群的压力大，插入速度严重变慢解决： 1：增大background_pool_size治标不治本 2：设置分区的时候需要思考，数据的特性需要了解

0 码力 | 14 页 | 1.10 MB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

Hive、ElasticSearch、Kylin、Druid、InfluxDB等，详见：http://roaringbitmap.org/ 通过单个bitmap可以完成精确去重操作，通过多个bitmap的and、or、xor、andnot等位操作完成留存分析、漏斗分析、用户画像分析等场景的计算。 00101110 00100001 00100000 …… Byte[0] Byte[1] Byte[2] 就要到了，需要发放10万张家电类优惠券迚行促销：预估人数人群画像用户ID清单用户画像场景1—预估人数输入条件返回结果场景描述场景：限量发放10万张家电类优惠券，先预估出符合条件的用户数。操作：用户指定标签及标签间的逡辑关系，统计出符合标签逡辑的人数。标签表达式，包含标签、算术运算符、逡辑运算符、括号。整形值，表示符合标签表达式的用户人数例如： 23 user_number 场景：对选出符合发优惠券条件的用户迚行画像分析，人群特征分析。操作：用户指定标签及标签间的逡辑关系，查询出符合标签逡辑的用户ID数据集，然后对数据集迚行用户画像分析。一条SQL完成人群圈选、用户画像两个劢作。标签逡辑表达式，包含标签、算术运算符、逡辑运算符、括号。查询出符合标签表达式的用户ID Bitmap对象，然后将Bitmap对象不画像表迚行不（AND）操作，返回用户画像信息。例如： label_name

0 码力 | 32 页 | 1.47 MB | 1 年前
3
3. 数仓ClickHouse多维分析应用实践-朱元

clickhouse数仓应用实践演讲人：朱元日期： 2019-10-20 所遇问题目录 CONTENTS 现状背景应用实践 01 数据链路长现状即席查询性能差数据压缩率低需求响应慢 02 数据架构数据同步ck 01 1，基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本因此采用可视化同步工具kettle. 先将oracle数据平台维

0 码力 | 14 页 | 3.03 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

ClickHouse 应用实践丁晓坤 & 熊峰一切以用户价值为依归 2 • Clickhouse 的部署与监控管理 • Clickhouse 的应用实践 iData 目录部署与监控管理一切以用户价值为依归 3 1 4 部署与监控管理 1 高内存，廉价存储：单机配置: Memory128G CPU核数24 SATA20T，RAID5 万兆网卡一切以用户价值为依归

0 码力 | 26 页 | 3.58 MB | 1 年前
3

共 6 条前往

页

分类

语言

格式

2. ClickHouse MergeTree原理解析-朱凯

ClickHouse在B站海量数据场景的落地实践

2. Clickhouse玩转每天千亿数据-趣头条

4. ClickHouse在苏宁用户画像场景的实践

3. 数仓ClickHouse多维分析应用实践-朱元

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰