4. ClickHouse在苏宁用户画像场景的实践物化视图 5. 高基数查询 6. 精确去重计数(count distinct) 3 精确去重计数性能测试 4亿多的数据集上,去重计算出6千万整形数值, 非精确去重函数:uniq、uniqHLL12、uniqCombined 精确去重函数:uniqExact、groupBitmap 函数 时长(秒) 去重后个数 误差个数 误差率 uniq(id) 4 精确去重计数性能测试 1.554 1.341 1.613 50.437 7.038 0 10 20 30 40 50 60 时长 结论: • 整形值精确去重场景,groupBitmap 比 uniqExact至少快 2x+ • groupBitmap仅支持整形值去重, uniqExact支持任意类型去重。 • 非精确去重场景,uniq在精准度上有优势。 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 误差率 精确去重计数性能测试 6 ClickHouse在苏宁使用场景 OLAP平台存储引擎 -- 存储时序数据、cube加速数据,应用亍高基数查询、精确去重场景。 运维监控 -- 实时聚合分析监控数据,主要使用物化视图技术。 用户画像场景0 码力 | 32 页 | 1.47 MB | 1 年前3
6. ClickHouse在众安的实践垂直方向行业模板,简化开发过程 • 多语言多runtime支持,Bring your own model • 数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 追溯与可重现 洞察平台架构 Why 数据查询慢:每个查询需要5~10分钟; • 数据更新慢:更新数据可能需要数天时间; • 不灵活:用户有新标签需求时,需要提需求给标签开发人员排期开发 需求,开发人员开发完再更新到系统中,这时离需求提出可能已经过 去几天,无法及时给到业务人员反馈。 思路 利用clickhouse实时计算的高效性能,对原始数据进行查询分析,从而支 持用户灵活的定义标签并让用户实时得到反馈。 标签平台 clickhouse0 码力 | 28 页 | 4.00 MB | 1 年前3
ClickHouse在B站海量数据场景的落地实践Ø 屏蔽集群信息 Ø 原⽣JDBC,HTTP接⼜ Ø 读写分离 Ø 动态查询缓存 Ø 流量控制 v 监控管理平台: Ø 统计⼤盘 Ø 回归测试 Ø 接⼊评估 Ø 数据迁移 Ø 数据重平衡 v 交互式分析查询:Superset提供即时查询能⼒ v 离线写⼊服务 (Rider) v 实时写⼊服务 (BSQL/Saber) ClickHouse 监控管理平 台 BSQL/Saber0 码力 | 26 页 | 2.15 MB | 1 年前3
共 3 条
- 1













