新特性 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

Shard02 Shard03 Load Balancing 一切以用户价值为依归 6 部署与监控管理 1 线性平滑扩容：扩容： 1.安装新部署新的shard分片机器 2.新shard上创建表结构 3.批量修改当前集群的配置文件增加新的分片 4.名字服务添加节点一切以用户价值为依归 7 部署与监控管理 1 大批量，少批次 WriteModel BatchSize RowLengt 2 腾讯游戏数据化驱动服务场景视图： TGlog 服务端采集腾讯游戏服务器腾讯游戏移动客户端微信小游戏 WEB 游戏海外游戏 TDM-SDK 客户端采集特性采集大数据基础 PaaS平台游戏营销活动 Dbbinlog 数据库采集 Game DB 数据管理 + 元数据 TDBANK 准实时传输管道 Kafka-Pipeline iData大数据分析PaaS 在线实时能力 n iData大数据分析：多维分析，画像分析能力 n DataMore大数据实时决策能力一切以用户价值为依归 17 业务应用实践 iData 2 新大数据分析引擎2.0 业界传统大数据分析引擎大数据分析引擎&存储 Analytical Engine & Database 大数据仓库 Hadoop Data Lake 计算引擎 MR

0 码力 | 26 页 | 3.58 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

一级索引&二级索引 02 / 数据存储 03 / 数据标记 04 / 表引擎表引擎，是ClickHouse设计实现中的一大特色。可以说正是由表引擎，决定了一张数据表最终的性格，它拥有何种特性、数据以何种形式被存储以及如何被加载。 ClickHouse拥有非常庞大的表引擎体系，截至到目前(19.14.6)，共拥有合并树、内存、文件、接口和其他5大类20多种。合并树这众多的表引 MergeTree在写入一批数据时，数据总会以数据片段的形式写入磁盘，且数据片段不可修改。为了避免片段过多，ClickHouse会通过后台线程定期合并这些数据片段，属于相同分区的数据片段会被合成一个新的片段。这种数据片段往复合并的特点也正是合并树的名称由来。 MergeTree的创建方式 CREATE TABLE [IF NOT EXISTS] [db_name.]table_name ( 顾名思义，最小数据块编号与最大数据块编号。这里的 BlockNum是一个整型的自增长编号。如果将其设为n的话，那么计数n在单张MergeTree数据表内全局累加，n从1 开始，每当新创建一个分区目录时，计数n就会累积加1 。对于一个新的分区目录而言，MinBlockNum与 MaxBlockNum取值一样，同等于n。 • Level 合并的层级，可以理解为某个分区被合并过的次数。 Level计数与BlockNum有所不同，它并不是全局累加的。

0 码力 | 35 页 | 13.25 MB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 2 选择ClickHouse的原因 1. 速度快 2. 特性发布快 3. 软件质量高 4. 物化视图 5. 高基数查询 6. 精确去重计数（count distinct） 3 精确去重计数性能测试 4亿多的数据集上，去重计算出6千万整形数值，用户ID字段，表示符合标签表达式的用户ID集合。例如： user_list 8 10 11 12 27 用户画像场景3—用户ID清单—示例画像条件查询SQL 28 用户画像新架构的优势  每个标签的数据可以幵行构建，加快标签数据生产速度。  HDFS文件幵发导入ClickHouse，加快标签数据的就绪速度。  查询请求平均响应时长在2秒以下，复杂查询在10秒内。

0 码力 | 32 页 | 1.47 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

块盘的大小限制太大 cpu需要根据实际情况而定解决： 1：机器的内存推荐128G+ 2：采用软连接的方式，把不同的表分布到不同的盘上面，这样一台机器可以挂载更多的盘最新版本的”冷热数据分离”特性，曲线救国? 我们遇到的问题 order by (timestamp, eventType) or order by (eventType, timestamp) 业务场景 1：趣头条和米读的 count(1) from table where dt='' and timestamp>='' and timestamp<='' and eventType='' 建表的时候缺乏深度思考，由于分时指标的特性，我们的表是order by (timestamp, eventType)进行索引的，这样在计算累时指标的时候出现非常耗时(600亿+数据量) 分析：对于累时数据，时间索引基本就失效了，由于t e跟不上 3：一个目录，一个zxid，zookeeper集群的压力大，插入速度严重变慢解决： 1：增大background_pool_size治标不治本 2：设置分区的时候需要思考，数据的特性需要了解我们遇到的问题查询过程中clickhouse-server进程挂掉分析： clickhouse裸奔时max_memory_usage_for_all_queries默认值为0，即不限制clickhouse内存使用

0 码力 | 14 页 | 1.10 MB | 1 年前
3
6. ClickHouse在众安的实践

标签数据。保单表用户表用户行为表 ODPS ES 用户标签表痛点 • 数据查询慢：每个查询需要5～10分钟； • 数据更新慢：更新数据可能需要数天时间； • 不灵活：用户有新标签需求时，需要提需求给标签开发人员排期开发需求，开发人员开发完再更新到系统中，这时离需求提出可能已经过去几天，无法及时给到业务人员反馈。思路利用clickhouse实时计算的高效性能，对原始数据进行查询分析，从而支

0 码力 | 28 页 | 4.00 MB | 1 年前
3
8. Continue to use ClickHouse as TSDB

不断的汇总日成交量从而制定商业规划不断收集温度，坐标，方向，速度等指标，优化路线和驾驶方式 ► 上述业务数据特点: ► (1) 数据多 ► (2) 旧数据趋于不变 ► (3) 新数据更有价值 ► (4) 数据总是随时间变化而不断变化 Why we choose it ► 解决方案 ► (1) Row-Orient Database ► (2) Column-Orient

0 码力 | 42 页 | 911.10 KB | 1 年前
3

共 6 条前往

页

腾讯 clickhouse 实践 2019 丁晓坤熊峰 ClickHouse MergeTree 原理解析朱凯苏宁用户画像场景 Clickhouse 玩转每天千亿数据头条众安 Continue to use as TSDB

分类

语言

格式

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

2. ClickHouse MergeTree原理解析-朱凯

4. ClickHouse在苏宁用户画像场景的实践

2. Clickhouse玩转每天千亿数据-趣头条

6. ClickHouse在众安的实践

8. Continue to use ClickHouse as TSDB