ClickHouse on KubernetesClickHouse on Kubernetes! Alexander Zaitsev Altinity Background ● Premier provider of software and services for ClickHouse ● Incorporated in UK with distributed team in US/Canada/Europe 24x7 support for ClickHouse deployments ○ Software (Kubernetes, cluster manager, tools & utilities) ○ POCs/Training What is Kubernetes? “Kubernetes is the new Linux” Actually it’s an open-source machine resources efficiently ● automate application deployment Why run ClickHouse on Kubernetes? Other applications are already there Easier to manage than deployment on hosts Bring0 码力 | 34 页 | 5.06 MB | 1 年前3
ClickHouse on KubernetesClickHouse on Kubernetes! Alexander Zaitsev, Altinity Limassol, May 7th 2019 Altinity Background ● Premier provider of software and services for ClickHouse ● Incorporated in UK with 24x7 support for ClickHouse deployments ○ Software (Kubernetes, cluster manager, tools & utilities) ○ POCs/Training What is Kubernetes? “Kubernetes is the new Linux” Actually it’s an open-source machine resources efficiently ● automate application deployment Why run ClickHouse on Kubernetes? 1. Other applications are already there 2. Portability 3. Bring up data warehouses quickly0 码力 | 29 页 | 3.87 MB | 1 年前3
6. ClickHouse在众安的实践多语言多runtime支持,Bring your own model • 数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 追溯与可重现 洞察平台架构 Why Clickhouse? Clickhosue 持用户灵活的定义标签并让用户实时得到反馈。 标签平台 clickhouse 保单表 用户表 用户行为表 数据 • 历史保单数据 join 用户数据 join 用户行为数据 • 100+亿行,50+列 • 用户id • 事业部 • 入库时间 • first_policy_premium • ... • phone_flag • ha_flag • ... clickhouse集群配置0 码力 | 28 页 | 4.00 MB | 1 年前3
4. ClickHouse在苏宁用户画像场景的实践但是如果使用上述的数据结构存储单独一个较大数值的数字id,会造成空间上的浪费,例如 仅存储40亿一个数值也需要477m的空间。也就是说稀疏的Bitmap和稠密的占用空间相 同。通常会使用一种bitmap压缩算法迚行优化。 RoaringBitmap是一种已被业界广泛使用的高效的bitmap压缩算法,使用者包括Spark、 Hive、ElasticSearch、Kylin、Druid、InfluxDB等, 可以通过groupBitmapState创建。 13 注:ClickHouse聚合函数有一些函数后缀可以使用: -State:获取聚合的中间计算结果 -Merge:将中间计算结果迚行合幵计算,返回最终结果 -MergeState:将中间计算结果迚行合幵计算,返回合幵后的中间结果 ClickHouse集成RoaringBitmap Bitmap的运算函数集: 构造Bitmap类型 Bitmap自身戒者之间的位运算 实时标签通过Flink计算,然后写入Redis 用户画像平台可以从ES、Hbase、Redis查 询数据 痛点: 标签导入到ES的时间过长,需要等待各种业 务数据准备就绪,才能迚行关联查询。 新增戒者修改标签,丌能实时迚行,涉及到 ES文档结构的变化。 ES对资源消耗比较大,属亍豪华型配置。 ES的DSL诧法对用户丌太友好,用户学习成 本高。 Kafka Flink0 码力 | 32 页 | 1.47 MB | 1 年前3
2. ClickHouse MergeTree原理解析-朱凯以默认的索引粒度(8192)为例, MergeTree只需要12208行索引标 记就能为1亿行数据记录索引。 索引粒度 基于索引粒度,将数据标记成多个小的区间 index_granularity,默认8192 索引数据的生成规则 依照索引粒度生成索引,紧凑存储,惜字如金。 PRIMARY KEY ID 索引的查询过程 假如现在有一份测试数据,共192行记录。其中,主键ID为String类型, ID的取0 码力 | 35 页 | 13.25 MB | 1 年前3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰知识 图谱 精细化 运营 … iData 大数据分析PaaS 实时 分析 多维 分析 画像 分析 … DataMore 大数据应用PaaS 实时 决策 任务 系统 … 排 行 榜 大数据应用 SaaS系统 iData 用户画像 DataMore 月光宝盒 DataMore 任务系统 iData 数据可视化 游 谱 游戏说 神秘 商店 iData 多维提取 Column1 DataNode Column2 Column3 ColumnN bitmap 画像下钻分布式计算引擎 多维 提取 iData大数据分析引擎 分布式多维计算引擎 基于位图索引和行式内容存储 分布式画像引擎 基于位图索引和列式内容存储 多维 分析 跟踪 分析 下钻 分析 透视 分析 画像 分析 一切以用户价值为依归 19 业务应用实践 iData 2 旧画像系统0 码力 | 26 页 | 3.58 MB | 1 年前3
3. Sync Clickhouse with MySQL_MongoDBhistory state Create Update Update Delete Future ● Auto configure through web ● Auto deploy on Kubernetes ● Open source? ● Github: kevwan Q&A Thanks0 码力 | 38 页 | 7.13 MB | 1 年前3
ClickHouse: настоящее и будущееClickHouse — доступная система 9 ClickHouse можно развернуть: • На своих серверах • В облаках; с Kubernetes • На инфраструктуре заказчика • На личном ноутбуке ClickHouse доступен под разные платформы:0 码力 | 32 页 | 2.62 MB | 1 年前3
ClickHouse: настоящее и будущееClickHouse — доступная система 9 ClickHouse можно развернуть: • На своих серверах • В облаках; с Kubernetes • На инфраструктуре заказчика • На личном ноутбуке ClickHouse доступен под разные платформы:0 码力 | 32 页 | 776.70 KB | 1 年前3
ClickHouse in Productionbackend › clickhouse-mysql-data-reader – MySQL replica › clickhouse-operator – configurator for Kubernetes › clickhousedb_fdw – foreign data wrapper › clickhouse_sinker – data loader from Kafka › Tabix0 码力 | 100 页 | 6.86 MB | 1 年前3
共 11 条
- 1
- 2













