文件管理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

2. ClickHouse MergeTree原理解析-朱凯

下属公司 14 年+ 14 上市千+ 大家用优质的产品和服务推动企业管理和社会进步产品服务 l 集团资源管理 l 资产全寿命周期管理 l 集团风险管控 l 企业大数据及商业智能 l 企业云服务 l 智能机器人应用 l 集团IT治理 l …… l 能源产业链 l 区域能源管理 l 能源大数据 l 购售电平台 l …… l 智慧组织 l 智慧城市 l 珠海特区报三峡电能秦山核电香港医思医疗国家能源集团安徽皖能南方电网金川集团金晶集团中航集团比亚迪股份互联数据资源、为组织数字资产管理运营、数据探索、分析赋能！数据汇聚专业的数据资源管理自助分析价值挖掘多维探索灵活快速自助洞察预警消息交互 Agenda. 数据分区 01 / 一级索引&二级索引 02 / 数据存储 03 正是由表引擎，决定了一张数据表最终的性格，它拥有何种特性、数据以何种形式被存储以及如何被加载。 ClickHouse拥有非常庞大的表引擎体系，截至到目前(19.14.6)，共拥有合并树、内存、文件、接口和其他5大类20多种。合并树这众多的表引擎中，又属合并树(MergeTree)表引擎及其家族系列(*MergeTree)最为强大，在生产环境绝大部分场景中都应该使用此系列的表引擎。

0 码力 | 35 页 | 13.25 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

2 • Clickhouse 的部署与监控管理 • Clickhouse 的应用实践 iData 目录部署与监控管理一切以用户价值为依归 3 1 4 部署与监控管理 1 高内存，廉价存储：单机配置: Memory128G CPU核数24 SATA20T，RAID5 万兆网卡一切以用户价值为依归 5 部署与监控管理 1 生产环境部署方案： Distributed Shard03 Load Balancing 一切以用户价值为依归 6 部署与监控管理 1 线性平滑扩容：扩容： 1.安装新部署新的shard分片机器 2.新shard上创建表结构 3.批量修改当前集群的配置文件增加新的分片 4.名字服务添加节点一切以用户价值为依归 7 部署与监控管理 1 大批量，少批次 WriteModel BatchSize RowLengt h 一切以用户价值为依归 8 部署与监控管理 1 应用监控-业务指标：一切以用户价值为依归 9 部署与监控管理 1 服务监控-错误日志：一切以用户价值为依归 10 部署与监控管理 1 服务监控-请求指标：一切以用户价值为依归 11 部署与监控管理 1 服务监控-扫描详情：一切以用户价值为依归 12 部署与监控管理 1 服务监控-响应耗时：一切以用户价值为依归

0 码力 | 26 页 | 3.58 MB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

ES的DSL诧法对用户丌太友好，用户学习成本高。 Kafka Flink 18 ClickHouse替换ES存储标签数据  ClickHouse Manager负责ClickHouse集群管理、元数据管理以及节点负载协调  tag-generate负责标签数据构建，保存到HDFS（MySQL中存储标签配置信息）  tag-loader向ClickHouse发送从HDFS导入标签数据的sql 27 用户画像场景3—用户ID清单—示例画像条件查询SQL 28 用户画像新架构的优势  每个标签的数据可以幵行构建，加快标签数据生产速度。  HDFS文件幵发导入ClickHouse，加快标签数据的就绪速度。  查询请求平均响应时长在2秒以下，复杂查询在10秒内。  支持标签数据实时更新，增加标签、删除标签、修改标签。

0 码力 | 32 页 | 1.47 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

clickhouse裸奔时max_memory_usage_for_all_queries默认值为0，即不限制clickhouse内存使用解决： clickhouse安装完成以后，在users.xml文件中配置一下max_memory_usage_for_all_queries，控制 clickhouse-server最大占用内存，避免被OS kill 我们遇到的问题 Memory limit (for uniqCombined / uniqHLL12 4：Join时小表放到右边，“右表广播” ^v^ 我们遇到的问题 zookeeper相关的问题问题一：zookeeper的snapshot文件太大，follower从leader同步文件时超时问题二：zookeeper压力太大，clickhouse表处于”read only mode”，插入失败分析： clickhouse对zookeeper的依赖还是很 1：zookeeper机器的snapshot文件和log文件最好分盘存储(推荐SSD)提高ZK的响应 2：zookeeper的snapshot文件存储盘不低于1T 3：做好zookeeper集群和clickhouse集群的规划，可以多套zookeeper集群服务一套clickhouse集群 3.1：zookeeper集群的znode最好能在400w以下(这个时候snapshot文件到达2G+) 3.2：注意监控zookeeper的指标(排队请求

0 码力 | 14 页 | 1.10 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

ClickHouse Yuuni 定制开发的 ClickHouse-JDBC 与ClickHouse兼容的 HTTP 接口请求管理/流量控制查询缓存查询分发器查询处理器 ClickHouse 监控管理平台元数据管理库表管理权限管理埋点分析报表平台 HDFS/Hive Kafka/Databus 离线接入 (Rider/Spark/WaterDrop) 日志&Trace 平台 APM ClickHouse as Service v Berserker数据源管理： Ø 建表 Ø 修改表元数据 Ø 表元数据管理 v Yuuni： Ø 屏蔽集群信息 Ø 原⽣JDBC，HTTP接⼜ Ø 读写分离 Ø 动态查询缓存 Ø 流量控制 v 监控管理平台： Ø 统计⼤盘 Ø 回归测试 Ø 接⼊评估 Ø 数据迁移 Ø 数据重平衡 v 交互交互式分析查询：Superset提供即时查询能⼒ v 离线写⼊服务（Rider） v 实时写⼊服务（BSQL/Saber） ClickHouse 监控管理平台 BSQL/Saber 实时写入服务 Rider 离线写入服务平台服务 Berserker 数据源管理交互式分析查询 Yuuni服务用户内核 Map隐式列 v 原⽣Map使⽤Array of Tuple实现 v 原⽣Map查询时需读取⼤量⽆效数据

0 码力 | 26 页 | 2.15 MB | 1 年前
3
6. ClickHouse在众安的实践

元数据管理/数据集市数据权限管理 | 大数据、流数据建模 | 数据/模型生命周期管理资源调度业务系统开发工具基础设施模型反馈智能应用开放与敏捷 • 大数据、流数据统一建模管理 • 垂直方向行业模板，简化开发过程 • 多语言多runtime支持，Bring your own model • 数据流转、建模、机器学习任务的全生命周期管理 • 大规模在线任务监控、自动模型性能监测、大规模在线任务监控、自动模型性能监测、重训练与发布 • 追溯数据血缘，数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧全生命周期管理追溯与可重现洞察平台架构 Why Clickhouse? Clickhosue 性能高效的数据导入和查询性能开源低成本，免费压缩比高度的数据压缩比，存储成本更小面向列真正的面向列存储，

0 码力 | 28 页 | 4.00 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

依赖稀疏索引，列式存储，cpu/内存的充分利用造就了优秀的计算能力，并且不用考虑左侧原则；缺点： 1. 不支持事务，没有真正的update/delete； 2. 不支持高并发，可以根据实际情况修改qps相关配置文件；全球敏捷运维峰会广州站 StarRocks的特点优点： 1. 支持标准的SQL语法，兼容MySql协议； 2. MPP架构，扩缩容非常简单方便； 3. 支持高并发查询； 4 4. 将A_ temp_temp rename成 A_temp; 其他方式： 1. 采用 waterdrop 的方式大幅提升写入速度； 2. 直接读Hdfs文件的方式，但内存波动较大；全球敏捷运维峰会广州站 ClickHouse的增量数据同步流程传统方式： 1. 将最近3个月的数据从Hive通过ETL入到A_temp表;

0 码力 | 15 页 | 1.33 MB | 1 年前
3
3. 数仓ClickHouse多维分析应用实践-朱元

基于现有开发人员水平及成本因此采用可视化同步工具kettle. 先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据仓库 Oracle数据平台 • 通过kettle每天定时导出文件至本地 Etl服务器 • 通过clickhouse- client将文本导入ck数据库 clickhouse数据库数仓建设 01 ck数仓数据模型采用星型模型搭建 02

0 码力 | 14 页 | 3.03 MB | 1 年前
3

共 8 条前往

页

分类

语言

格式

2. ClickHouse MergeTree原理解析-朱凯

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

4. ClickHouse在苏宁用户画像场景的实践

2. Clickhouse玩转每天千亿数据-趣头条

ClickHouse在B站海量数据场景的落地实践

6. ClickHouse在众安的实践

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

3. 数仓ClickHouse多维分析应用实践-朱元