2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰一切以用户价值为依归 11 部署与监控管理 1 服务监控-扫描详情: 一切以用户价值为依归 12 部署与监控管理 1 服务监控-响应耗时: 一切以用户价值为依归 13 部署与监控管理 1 立体监控模型: 监控分层 监控项 敏感度 紧急度 应用层 业务指标,数据异常 低 高 服务层 错误日志 中 中 请求指标 扫描详情 响应耗时 物理层 磁盘IO, 持续负载,流量 高 低 一切以用户价值为依归 平台在ClickHouse上的使用 16 业务应用实践 iData 2 腾讯游戏 数据化驱动服务 场景视图: TGlog 服务端采集 腾讯游戏 服务器 腾讯游戏 移动客户端 微信 小游戏 WEB 游戏 海外 游戏 TDM-SDK 客户端采集 特性 采集 大数据基础 PaaS平台 游戏 营销活动 Dbbinlog 数据库采集 Game DB 数 据 管 理0 码力 | 26 页 | 3.58 MB | 1 年前3
6. ClickHouse在众安的实践X-Brain AI 开放平台 计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控 数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入 消 息 中 间 件 模型、 算法 模版 机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 数据可视化平台 模板 大数据、流数据建模 | 数据/模型生命周期管理 资源调度 业务系统 开 发 工 具 基 础 设 施 模型 反馈 智能应用 开放与敏捷 • 大数据、流数据统一建模管理 • 垂直方向行业模板,简化开发过程 • 多语言多runtime支持,Bring your own model • 数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 重训练与发布 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 追溯与可重现 洞察平台架构 Why Clickhouse? Clickhosue 性能 高效的数据导入和查询性能 开源 低成本,免费 压缩比 高度的数据压缩比,存储成本更小 面向列 真正的面向列存储, 支持高维度表 易观开源OLAP引擎测评报告0 码力 | 28 页 | 4.00 MB | 1 年前3
3. 数仓ClickHouse多维分析应用实践-朱元clickhouse数据库 数 仓 建 设 01 ck数仓数据模型采用星型模型搭建 02 数 仓 建 设 – 维度表 一般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary) 数 仓 建 设 – 主题事实清单表 主题事实清单表采用引擎MergeTree. 同步策略: 每日从 oracle数据平台增量同步到ck数仓. 数 仓 建 设 – 对外数据 目前对外开放是主题事实清单表+维度表0 码力 | 14 页 | 3.03 MB | 1 年前3
4. ClickHouse在苏宁用户画像场景的实践通过Spark关联各种业务数据,插入到ES大 宽表。 高频查询的画像数据通过后台任务保存到加 速层:Hbase 戒者 Redis 实时标签通过Flink计算,然后写入Redis 用户画像平台可以从ES、Hbase、Redis查 询数据 痛点: 标签导入到ES的时间过长,需要等待各种业 务数据准备就绪,才能迚行关联查询。 新增戒者修改标签,丌能实时迚行,涉及到 ES文档结构的变化。 用户画像平台 ClickHouse2 ClickHouseN to-ch-sql 19 标签数据表定义 20 String Integer Double Date 数据模型定义 ch_label_dist_string ch_label_string_20191011 ch_label_int_20191011 ch_label_double_201910110 码力 | 32 页 | 1.47 MB | 1 年前3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎ClickHouse/StarRocks在酒店数据智能平台的架构 全球敏捷运维峰会 广州站 ClickHouse的全量数据同步流程 1. 清空A_temp表,将最新的数据从Hive通过ETL导入 到A_temp表; 2. 将A rename 成A_temp_temp; 3. 将A_temp rename成 A; 4. 将A_ temp_temp rename成 直接读Hdfs文件的方式,但内存波动较大; 全球敏捷运维峰会 广州站 ClickHouse的增量数据同步流程 传统方式: 1. 将最近3个月的数据从Hive通过ETL入到A_temp表; 2. 将A表中3个月之前的数据select into到A_temp表; 3. 将A rename 成A_temp_temp; 4. 将A_temp rename成 A;0 码力 | 15 页 | 1.33 MB | 1 年前3
2. ClickHouse MergeTree原理解析-朱凯表引擎,是ClickHouse设计实现中的一大特色。可以说正是由表引擎,决定了一张 数据表最终的性格,它拥有何种特性、数据以何种形式被存储以及如何被加载。 ClickHouse拥有非常庞大的表引擎体系,截至到目前(19.14.6),共拥有合并树、 内存、文件、接口和其他5大类20多种。 合并树 这众多的表引擎中,又属合并树(MergeTree)表引擎及其家族系列(*MergeTree)最 为强大,在生 按PRIMARY Key 排序 数据分区 数据的分区规则 l 不指定分区键 如果不使用分区键,既不使用PARTITION BY声 明任何分区表达式,则分区ID默认取名为all,所 有的数据都会被写入到这个all分区。 l 使用整型 如果分区键取值属于整型(兼容UInt64,包括 有符号整型和无符号整型),且无法转换为日期类 型YYYYMMDD格式,则直接按照该整型的字符形式 输出作为分区ID的取值。0 码力 | 35 页 | 13.25 MB | 1 年前3
2. Clickhouse玩转每天千亿数据-趣头条方案,但是会影响速度 clickhouse的数据目录还不支持多个数据盘,单块盘的大小限制太大 cpu需要根据实际情况而定 解决: 1:机器的内存推荐128G+ 2:采用软连接的方式,把不同的表分布到不同的盘上面,这样一台机器可以挂载更多的盘 最新版本的”冷热数据分离”特性,曲线救国? 我们遇到的问题 order by (timestamp, eventType) or order by (eventType0 码力 | 14 页 | 1.10 MB | 1 年前3
共 7 条
- 1













