云原生虚拟数仓 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

数仓ClickHouse多维分析应用实践-朱元

clickhouse数仓应用实践演讲人：朱元日期： 2019-10-20 所遇问题目录 CONTENTS 现状背景应用实践 01 数据链路长现状即席查询性能差数据压缩率低需求响应慢 02 数据架构数据同步ck 01 1，基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本因此采用可视化同步工具kettle. 先将oracle数据平台维 clickhouse数据库数仓建设 01 ck数仓数据模型采用星型模型搭建 02 数仓建设 – 维度表一般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary) 数仓建设 – 主题事实清单表主题事实清单表采用引擎MergeTree. 同步策略: 每日从 oracle数据平台增量同步到ck数仓. 数仓建设 – 对外数据目前对外开放是主题事实清单表+维度表目前对外开放是主题事实清单表+维度表封装成一个视图,类似如下数据展示 + 多维分析采用开源报表系统davinci 地址: https://github.com/edp963/davinci 03 1. Memory limit (for query) exceeded 解决：通过在users.xml 配置 max_bytes_before_external_sort max_b

0 码力 | 14 页 | 3.03 MB | 1 年前
3
6. ClickHouse在众安的实践

phone_flag • ha_flag • ... clickhouse集群配置 • 阿里云ECS * 6，生产环境集群 • CPU: • Intel(R) Xeon(R) CPU E5-2682 v4 @ 2.50GH • 12 cores 24 processors • 内存: 96GB • 硬盘: 1TB 高效云盘，最大IO吞吐量 140MBps 以事业部、入库时间作双分区导入数据遇到的问题 single INSERT block的问题 • 数据导入慢原因： • ck-loader-mr方式对大数据量场景支持不够友好 • 单次插入分区过多解决方法：使用clickhouse原生insert format csv 配合linux pipline导入 hadoop fs -cat 'hdfs://hadoop-namenode:port/user/hive/user/2013/000000_0' FORMAT CSV" 效果：单进程：每分钟2600w条记录，client占用核数=1，server占用核数=1，导入速率=80mb/s 2进程：每分钟4000w条记录，client占用核数=2，server占用核数约2-5，导入速率=140mb/s 4进程: 每分钟8000w条记录，每个client占核数=1，server占用核约2-5，导入速率=280mb/s 22 ClickHouse

0 码力 | 28 页 | 4.00 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

ClickHouse MergeTree原理解析朱凯@深圳 2019.10 朱凯远光软件大数据事业部/平台开发部总经理资深架构师，腾讯云TVP专家 10多年IT从业经验，精通Java、Nodejs等语言方向著有: 《企业级大数据平台构建：架构与实现》、《ClickHouse原理解析与开发实战》（连载写作中）珠海总部园区占地面积 6 万平方米珠海、北京、武汉 l 集团风险管控 l 企业大数据及商业智能 l 企业云服务 l 智能机器人应用 l 集团IT治理 l …… l 能源产业链 l 区域能源管理 l 能源大数据 l 购售电平台 l …… l 智慧组织 l 智慧城市 l 智慧产业 l …… EDT 企业级大数据平台 BAS区块链企业应用服务平台 ECP 企业云平台服务（咨询、实施、运维、定制开发、系统集成……） 'A188') WHERE ID LIKE 'A006%' ['A006', 'A007') 2. 递归交集判断 3. 合并MarkRange区间索引的查询过程二级索引跳数索引目前，MergeTree共支持4种跳数索引，分别是minmax、set和ngrambf_v1和tokenbf_v1。数据存储按列存储，精心编排，错落有致压缩数据块，就好比是一本书的文字段落，是组织文字的基本单元。

0 码力 | 35 页 | 13.25 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

针对ClickHouse的保护机制 1. 被动缓存； 2. 主动缓存；全球敏捷运维峰会广州站 ClickHouse集群架构 Ø 虚拟集群最少两台机器在不同的机房； Ø 数据独立，多写，相互不干扰； Ø 数据读取通过应用程序做负载平衡； Ø 灵活创建不同的虚拟集群用于适当的场合； Ø 随时调整服务器，新增/缩减服务器；分布式： k8s的集群式部署全球敏捷运维峰会广州站

0 码力 | 15 页 | 1.33 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

Clickhouse 的应用实践 iData 目录部署与监控管理一切以用户价值为依归 3 1 4 部署与监控管理 1 高内存，廉价存储：单机配置: Memory128G CPU核数24 SATA20T，RAID5 万兆网卡一切以用户价值为依归 5 部署与监控管理 1 生产环境部署方案： Distributed Table Replica1Replica1 Replica1Replica1 小游戏 WEB 游戏海外游戏 TDM-SDK 客户端采集特性采集大数据基础 PaaS平台游戏营销活动 Dbbinlog 数据库采集 Game DB 数据管理 + 元数据 TDBANK 准实时传输管道 Kafka-Pipeline 实时管道 TDW 数据仓库采集存储大数据应用 PaaS平台数据挖掘与内容推荐 PaaS

0 码力 | 26 页 | 3.58 MB | 1 年前
3

共 5 条前往

页

分类

语言

格式

数仓ClickHouse多维分析应用实践-朱元

6. ClickHouse在众安的实践

2. ClickHouse MergeTree原理解析-朱凯

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰