虚拟表 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

ClickHouse/StarRocks在酒店数据智能平台的架构全球敏捷运维峰会广州站 ClickHouse的全量数据同步流程 1. 清空A_temp表，将最新的数据从Hive通过ETL导入到A_temp表; 2. 将A rename 成A_temp_temp; 3. 将A_temp rename成 A; 4. 将A_ temp_temp 全球敏捷运维峰会广州站 ClickHouse的增量数据同步流程传统方式： 1. 将最近3个月的数据从Hive通过ETL入到A_temp表; 2. 将A表中3个月之前的数据select into到A_temp表； 3. 将A rename 成A_temp_temp; 4. 将A_temp rename成 A; 5. 将A_ ClickHouse集群架构 Ø 虚拟集群最少两台机器在不同的机房； Ø 数据独立，多写，相互不干扰； Ø 数据读取通过应用程序做负载平衡； Ø 灵活创建不同的虚拟集群用于适当的场合； Ø 随时调整服务器，新增/缩减服务器；分布式： k8s的集群式部署全球敏捷运维峰会广州站采用ClickHouse后平台的查询性能 system.query_log表，记录已经执行的查询记录

0 码力 | 15 页 | 1.33 MB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

6 2019-10-02 4 p1 7 2019-10-02 5 p1 8 2019-10-02 5 p2 一张简单的订单明细表 detail_order，如何计算用户的日留存？ 15 标签 SQL 大表join，count distinct 都比较慢，而且容易 OOM! Bitmap应用示例 order_date uv_bitmap 2019-10-01 [1,2] 16 detail_order 聚合为天维度表留存用户的SQL Bitmap函数千万级用户，秒级出结果！ Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 17 用户画像原有的流程及痛点 Hive表商品数据 ElasticSearch 用户数据交易数据交易数据 HBase Redis 第三方… Spark 用户画像平台现有的流程：  ES中定义标签的大宽表  通过Spark关联各种业务数据，插入到ES大宽表。  高频查询的画像数据通过后台任务保存到加速层：Hbase 戒者 Redis  实时标签通过Flink计算，然后写入Redis  用户画像平台可以从ES、Hbase、Redis查询数据

0 码力 | 32 页 | 1.47 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

数据标记 04 / 表引擎表引擎，是ClickHouse设计实现中的一大特色。可以说正是由表引擎，决定了一张数据表最终的性格，它拥有何种特性、数据以何种形式被存储以及如何被加载。 ClickHouse拥有非常庞大的表引擎体系，截至到目前(19.14.6)，共拥有合并树、内存、文件、接口和其他5大类20多种。合并树这众多的表引擎中，又属合并树(MergeTree)表引擎及其家族系列(*MergeTree)最 )最为强大，在生产环境绝大部分场景中都应该使用此系列的表引擎。只有合并树系列的表引擎才支持主键索引、数据分区、数据副本和数据采样这些特性，同时也只有此系列的表引擎支持ALTER相关操作。合并树家族其中MergeTree作为家族中最基础的表引擎，提供了主键索引、数据分区、数据副本和数据采样等所有的基本能力，而家族中其他的表引擎则在MergeTree的基础之上各有所长。 MergeTree的名称由来 MinBlockNum和MaxBlockNum 顾名思义，最小数据块编号与最大数据块编号。这里的 BlockNum是一个整型的自增长编号。如果将其设为n的话，那么计数n在单张MergeTree数据表内全局累加，n从1 开始，每当新创建一个分区目录时，计数n就会累积加1 。对于一个新的分区目录而言，MinBlockNum与 MaxBlockNum取值一样，同等于n。 • Level 合并的层级，可以理解为某个分区被合并过的次数。

0 码力 | 35 页 | 13.25 MB | 1 年前
3
6. ClickHouse在众安的实践

支持高维度表易观开源OLAP引擎测评报告洞察数据模型+Clickhouse 使用效果 CHAPTER 使用ck对百亿数据的探索 03 背景我们希望对保单、用户数据进行灵活分析，根据用户标签筛选出符合要求的客户进行精准营销。原始保单数据百亿+，用户数据数亿，如果用户标签几百个，数据存储和查询以及分析的压力就会很大，原有系统使用es来保存用户标签数据。保单表用户表用户行为表用户行为表 ODPS ES 用户标签表痛点 • 数据查询慢：每个查询需要5～10分钟； • 数据更新慢：更新数据可能需要数天时间； • 不灵活：用户有新标签需求时，需要提需求给标签开发人员排期开发需求，开发人员开发完再更新到系统中，这时离需求提出可能已经过去几天，无法及时给到业务人员反馈。思路利用clickhouse实时计算的高效性能，对原始数据进行查询分析，从而支持用户灵活的定义标签并让用户实时得到反馈。持用户灵活的定义标签并让用户实时得到反馈。标签平台 clickhouse 保单表用户表用户行为表数据 • 历史保单数据 join 用户数据 join 用户行为数据 • 100+亿行，50+列 • 用户id • 事业部 • 入库时间 • first_policy_premium • ... • phone_flag • ha_flag • ... clickhouse集群配置

0 码力 | 28 页 | 4.00 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

1：内存限制，对于一些大的查询会出现内存不够问题 2：存储限制，随着表越来多，磁盘报警不断 3：cpu限制 64G对于一些大表(每天600亿+)的处理，很容易报错，虽然有基于磁盘解决方案，但是会影响速度 clickhouse的数据目录还不支持多个数据盘，单块盘的大小限制太大 cpu需要根据实际情况而定解决： 1：机器的内存推荐128G+ 2：采用软连接的方式，把不同的表分布到不同的盘上面，这样一台机器可以挂载更多的盘 count(1) from table where dt='' and timestamp>='' and timestamp<='' and eventType='' 建表的时候缺乏深度思考，由于分时指标的特性，我们的表是order by (timestamp, eventType)进行索引的，这样在计算累时指标的时候出现非常耗时(600亿+数据量) 分析：对于累时数据，时间索引基本就失 3：uniq / uniqCombined / uniqHLL12 4：Join时小表放到右边，“右表广播” ^v^ 我们遇到的问题 zookeeper相关的问题问题一：zookeeper的snapshot文件太大，follower从leader同步文件时超时问题二：zookeeper压力太大，clickhouse表处于”read only mode”，插入失败分析： clickhouse

0 码力 | 14 页 | 1.10 MB | 1 年前
3
3. 数仓ClickHouse多维分析应用实践-朱元

ck数仓数据模型采用星型模型搭建 02 数仓建设 – 维度表一般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary) 数仓建设 – 主题事实清单表主题事实清单表采用引擎MergeTree. 同步策略: 每日从 oracle数据平台增量同步到ck数仓. 数仓建设 – 对外数据目前对外开放是主题事实清单表+维度表封装成一个视图,类似如下数据展示 +

0 码力 | 14 页 | 3.03 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

ClickHouse-JDBC 与ClickHouse兼容的 HTTP 接口请求管理/流量控制查询缓存查询分发器查询处理器 ClickHouse 监控管理平台元数据管理库表管理权限管理埋点分析报表平台 HDFS/Hive Kafka/Databus 离线接入 (Rider/Spark/WaterDrop) 实时接入 (BSQL/Saber/Flink Flink/JDBC/Go/HTTP 标签圈人。。。广告DMP 内容定投内容分析日志&Trace 平台 APM ClickHouse as Service v Berserker数据源管理： Ø 建表 Ø 修改表元数据 Ø 表元数据管理 v Yuuni： Ø 屏蔽集群信息 Ø 原⽣JDBC，HTTP接⼜ Ø 读写分离 Ø 动态查询缓存 Ø 流量控制 v 监控管理平台： Ø 统计⼤盘 Ø 回归测试 OTEL标准化⽇志采集 v 统⼀scheme⽀持日志 v ClickHouse较ES写⼊吞吐量提升近10倍 v ClickHouse存储成本为ES的1/3 日志 v ClickHouse中采⽤分表，统⼀schema的设计 v ⽇志查询采⽤类似ES语法，降低⽤户迁移成本用户行为数据分析概述 v 基于ClickHouse构建B站⽤户⾏为数据分析产品：北极星 v 行为数据分析平台主要以下功能模块：

0 码力 | 26 页 | 2.15 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

Shard02 Shard03 Load Balancing 一切以用户价值为依归 6 部署与监控管理 1 线性平滑扩容：扩容： 1.安装新部署新的shard分片机器 2.新shard上创建表结构 3.批量修改当前集群的配置文件增加新的分片 4.名字服务添加节点一切以用户价值为依归 7 部署与监控管理 1 大批量，少批次 WriteModel BatchSize RowLengt iData 2 iData画像服务需要升级 Ø扩展性差数据导入后结果不支持修改/追加 Ø数据类型有限数据类型只能支持数字类型 Ø数据量有限数据量达到10亿级以上查询效率有所降低 Ø单表计算不能进行多表关联计算一切以用户价值为依归 21 业务应用实践 iData 2 为什么选择ClickHouse • SQL • OLAP • 超高性能 • 列式存储 • 统计函数

0 码力 | 26 页 | 3.58 MB | 1 年前
3

共 8 条前往

页

分类

语言

格式

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

4. ClickHouse在苏宁用户画像场景的实践

2. ClickHouse MergeTree原理解析-朱凯

6. ClickHouse在众安的实践

2. Clickhouse玩转每天千亿数据-趣头条

3. 数仓ClickHouse多维分析应用实践-朱元

ClickHouse在B站海量数据场景的落地实践

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰