存储配置 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

4. ClickHouse在苏宁用户画像场景的实践

精确去重计数性能测试 6 ClickHouse在苏宁使用场景  OLAP平台存储引擎 -- 存储时序数据、cube加速数据，应用亍高基数查询、精确去重场景。  运维监控 -- 实时聚合分析监控数据，主要使用物化视图技术。  用户画像场景 -- 标签数据的存储、用户画像查询引擎。 7 Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 8 Bitmap位存储和位计算每个bit位表示一个数字id，对亍40亿个的用户id，只需要40亿bit位，约477m大小 = （4 * 109 / 8 / 1024 / 1024）但是如果使用上述的数据结构存储单独一个较大数值的数字id，会造成空间上的浪费，例如仅存储40亿一个数值也需要477m的空间。也就是说稀疏的Bitmap和稠密的占用空间相 RoaringBitmap原理介绍 11 丌仅数据结构设计精巧，而且还有很多高效的Bitmap计算函数。稀疏数据，劢态分配最大存储：4096元素最大空间：8KB 连续数据，劢态分配最大存储：65536元素最大空间：128KB 稠密数据，固定大小最大存储：65536元素最大空间：8KB RoaringBitmap原理介绍丼个栗子： 40亿（0xEE6B2800

0 码力 | 32 页 | 1.47 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

Clickhouse 的部署与监控管理 • Clickhouse 的应用实践 iData 目录部署与监控管理一切以用户价值为依归 3 1 4 部署与监控管理 1 高内存，廉价存储：单机配置: Memory128G CPU核数24 SATA20T，RAID5 万兆网卡一切以用户价值为依归 5 部署与监控管理 1 生产环境部署方案： Distributed Table Load Balancing 一切以用户价值为依归 6 部署与监控管理 1 线性平滑扩容：扩容： 1.安装新部署新的shard分片机器 2.新shard上创建表结构 3.批量修改当前集群的配置文件增加新的分片 4.名字服务添加节点一切以用户价值为依归 7 部署与监控管理 1 大批量，少批次 WriteModel BatchSize RowLengt h QPM IOUtils iData大数据分析：多维分析，画像分析能力 n DataMore大数据实时决策能力一切以用户价值为依归 17 业务应用实践 iData 2 新大数据分析引擎2.0 业界传统大数据分析引擎大数据分析引擎&存储 Analytical Engine & Database 大数据仓库 Hadoop Data Lake 计算引擎 MR & Spark Data Warehouse OLTP Big

0 码力 | 26 页 | 3.58 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

4：计算要快，在一个周期内，要完成所有的指标的计算集群现状 100+台32核128G 部分复杂累时查询30S内完成集群现状我们遇到的问题关于机器的配置早期集群机器配置16核64G 一块1.7T本地SSD 问题： 1：内存限制，对于一些大的查询会出现内存不够问题 2：存储限制，随着表越来多，磁盘报警不断 3：cpu限制 64G对于一些大表(每天600亿+)的处理，很容易报错，虽然有基于磁盘解决方案，但是会影响速度 clickhouse裸奔时max_memory_usage_for_all_queries默认值为0，即不限制clickhouse内存使用解决： clickhouse安装完成以后，在users.xml文件中配置一下max_memory_usage_for_all_queries，控制 clickhouse-server最大占用内存，避免被OS kill 我们遇到的问题 Memory limit (for 据Part都在 zookeeper上面有个节点与之对应以及表的元数据信息等等. 解决： 1：zookeeper机器的snapshot文件和log文件最好分盘存储(推荐SSD)提高ZK的响应 2：zookeeper的snapshot文件存储盘不低于1T 3：做好zookeeper集群和clickhouse集群的规划，可以多套zookeeper集群服务一套clickhouse集群 3.1：zooke

0 码力 | 14 页 | 1.10 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

的特点优点： 1. 数据压缩比高，存储成本相对非常低； 2. 支持常用的SQL语法，写入速度非常快，适用于大量的数据更新； 3. 依赖稀疏索引，列式存储，cpu/内存的充分利用造就了优秀的计算能力，并且不用考虑左侧原则；缺点： 1. 不支持事务，没有真正的update/delete； 2. 不支持高并发，可以根据实际情况修改qps相关配置文件；全球敏捷运维峰会广州站数据导入时根据分区做好Order By； • 左右表join的时候要注意数据量的变化； • 是否采用分布式； • 监控好服务器的cpu/内存波动/`system`.query_log； • 数据存储磁盘尽量采用ssd； • 减少数据中文本信息的冗余存储； • 特别适用于数据量大，查询频次可控的场景，如数据分析，埋点日志系统；全球敏捷运维峰会广州站 StarRocks应用小结 • 发挥分布式的优势，要提前做好分区字段规划；

0 码力 | 15 页 | 1.33 MB | 1 年前
3
6. ClickHouse在众安的实践

众安集智平台与clickhouse 02 集智平台 X-Brain AI 开放平台计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入消息中间件模型、算法模版机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台全生命周期管理追溯与可重现洞察平台架构 Why Clickhouse? Clickhosue 性能高效的数据导入和查询性能开源低成本，免费压缩比高度的数据压缩比，存储成本更小面向列真正的面向列存储，支持高维度表易观开源OLAP引擎测评报告洞察数据模型+Clickhouse 使用效果 CHAPTER 使用ck对百亿数据的探索 03 背景我们希望对保单、 100+亿行，50+列 • 用户id • 事业部 • 入库时间 • first_policy_premium • ... • phone_flag • ha_flag • ... clickhouse集群配置 • 阿里云ECS * 6，生产环境集群 • CPU: • Intel(R) Xeon(R) CPU E5-2682 v4 @ 2.50GH • 12 cores 24 processors

0 码力 | 28 页 | 4.00 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

自助洞察预警消息交互 Agenda. 数据分区 01 / 一级索引&二级索引 02 / 数据存储 03 / 数据标记 04 / 表引擎表引擎，是ClickHouse设计实现中的一大特色。可以说正是由表引擎，决定了一张数据表最终的性格，它拥有何种特性、数据以何种形式被存储以及如何被加载。 ClickHouse拥有非常庞大的表引擎体系，截至到目前(19.14.6)，共拥有合并树、 [SETTINGS name=value, 省略...] 分区键排序键主键 index_granularity = 8192 索引粒度 MergeTree的存储结构数据以分区的形式被组织 , PARTITION BY 各列独立存储, 按ORDER BY 排序一级索引, 按PRIMARY Key 排序数据分区数据的分区规则 l 不指定分区键如果不使用分区键，既不使用PARTITION MergeTree只需要12208行索引标记就能为1亿行数据记录索引。索引粒度基于索引粒度，将数据标记成多个小的区间 index_granularity，默认8192 索引数据的生成规则依照索引粒度生成索引，紧凑存储,惜字如金。 PRIMARY KEY ID 索引的查询过程假如现在有一份测试数据，共192行记录。其中，主键ID为String类型， ID的取值从A000、A001、A002，按顺序增长，直至A192为止。

0 码力 | 35 页 | 13.25 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

v Map隐式列将每个Key存储为独⽴列 v Map隐式列查询时只读取需要的隐式列 Bulkload v 原⽣写⼊⽅式消耗ClickHouse Server资源，影响查询性能 v 实时写⼊任务长期占⽤资源，故障恢复的时间和运维成本较⾼ v 基于中间存储的Bulkload⽅案降低ClickHouse Server压⼒ Bulkload v 基于中间存储的Bulkload可以降低ClickHouse ckHouse Server压⼒ v 基于中间存储的Bulkload受HDFS和⽹络稳定性影响，且传输成本较⾼ v 直达ClickHouse的Bulkload稳定性，性能都更佳 Unique Engine v ⽬标：⽀持UpSert，Delete操作，提升查询性能 v 设计：delete on insert Unique Engine v write-write冲突依靠table level Elastic To ClickHouse迁移，降本增效 v OTEL标准化⽇志采集 v 统⼀scheme⽀持日志 v ClickHouse较ES写⼊吞吐量提升近10倍 v ClickHouse存储成本为ES的1/3 日志 v ClickHouse中采⽤分表，统⼀schema的设计 v ⽇志查询采⽤类似ES语法，降低⽤户迁移成本用户行为数据分析概述 v 基于ClickHouse构建B站⽤户⾏为数据分析产品：北极星

0 码力 | 26 页 | 2.15 MB | 1 年前
3
8. Continue to use ClickHouse as TSDB

能力的时序数据库产品高性能并发读写 • 千万数据点并发实时写入 • 引入辅助索引，加快数据检索速度低成本存储 • 列式存储结合高效的编码 • Delta、XOR 等适合时序场景的压缩算法 • 通过 Rollup 功能，对历史数据做聚合，减少数据量稳定可扩展 • 分布式架构 • 数据多副本存储 • 服务高可用 Thanks For You

0 码力 | 42 页 | 911.10 KB | 1 年前
3
3. 数仓ClickHouse多维分析应用实践-朱元

采用开源报表系统davinci 地址: https://github.com/edp963/davinci 03 1. Memory limit (for query) exceeded 解决：通过在users.xml 配置 max_bytes_before_external_sort max_bytes_before_external_group_by 2. 用户并发量一上来,负载太高解决：目前是在中间加redis缓存

0 码力 | 14 页 | 3.03 MB | 1 年前
3

共 9 条前往

页

分类

语言

格式

4. ClickHouse在苏宁用户画像场景的实践

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

2. Clickhouse玩转每天千亿数据-趣头条

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

6. ClickHouse在众安的实践

2. ClickHouse MergeTree原理解析-朱凯

ClickHouse在B站海量数据场景的落地实践

8. Continue to use ClickHouse as TSDB

3. 数仓ClickHouse多维分析应用实践-朱元