6. ClickHouse在众安的实践集智平台可视化交互分析 数据加工的链路与数据价值发现 竞争优势 分析成熟度 洞察与应对 预测与行动 源数据 数据清洗 标准报表 OLAP系统 商务智能(BI) 机器学习建模 人工智能优化 发生了什么? 为什么发生? 什么会发生? 什么是最佳决策? 分析性数据仓库 数据洞察与可视化 数据治理 预测分析与机器学习 CHAPTER 众安集智平台与clickhouse 02 模型、 算法 模版 机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 数据可视化平台 模板 X-BI 数据探索平台 图像分类 平台 OCR工具 链 X-Farm 异构数据治理、协同平台 元数据管理/数据集市 数据权限管理 | 大数据、流数据建模 | 数据/模型生命周期管理 资源调度 业务系统 开 发 工 具 基 础 设 施 5,导入速率=140mb/s 4进程: 每分钟8000w条记录,每个client占核数=1,server占用核约2-5,导入速率=280mb/s 22 ClickHouse 百亿数据性能测试与优化 • 数据查询 4.48 5.56 4.71 8.64 18.6 250.57 场景 1 场景 2 场景 3 场景 4 场景 5 时间 s 时间(冷数据)s 一些典型查询的性能 测试0 码力 | 28 页 | 4.00 MB | 1 年前3
ClickHouse在B站海量数据场景的落地实践write-write冲突依靠table level lock控制 v write-merge冲突: Unique Engine v 常驻内存模式对内存消耗很⼤ v ⾮常驻内存模式index load过程慢 v 多并发加载优化索引加载速度: 日志 日志 v Elastic To ClickHouse迁移,降本增效 v OTEL标准化⽇志采集 v 统⼀scheme⽀持 日志 v ClickHouse较ES写⼊吞吐量提升近10倍0 码力 | 26 页 | 2.15 MB | 1 年前3
8. Continue to use ClickHouse as TSDBchoose it 不断收集CPU、 Memory等系统指标预 测系统未来趋势 不断收集市场变化信 息预测股价涨跌 不断的汇总日成交量从 而制定商业规划 不断收集温度,坐标,方向 ,速度等指标,优化路线和 驾驶方式 ► 上述业务数据特点: ► (1) 数据多 ► (2) 旧数据趋于不变 ► (3) 新数据更有价值 ► (4) 数据总是随时间变化而不断变化 Why we choose0 码力 | 42 页 | 911.10 KB | 1 年前3
4. ClickHouse在苏宁用户画像场景的实践但是如果使用上述的数据结构存储单独一个较大数值的数字id,会造成空间上的浪费,例如 仅存储40亿一个数值也需要477m的空间。也就是说稀疏的Bitmap和稠密的占用空间相 同。通常会使用一种bitmap压缩算法迚行优化。 RoaringBitmap是一种已被业界广泛使用的高效的bitmap压缩算法,使用者包括Spark、 Hive、ElasticSearch、Kylin、Druid、InfluxDB等,0 码力 | 32 页 | 1.47 MB | 1 年前3
3. 数仓ClickHouse多维分析应用实践-朱元数据链路长 现状 即席查询性能差 数据压缩率低 需求响应慢 02 数据架构 数据同步ck 01 1,基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本 因此采用可视化同步工具kettle. 先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据 仓库 Oracle数据平台 • 通过kettle每天 定时导出文件至 本地 Etl服务器0 码力 | 14 页 | 3.03 MB | 1 年前3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰iData 2 如何使用ClickHouse ClickHouse集群 TGMARS DATA 消息中间件 RDBMS(MYSQL) 数据仓库(TDW) 画像服务 BI服务 查询服务 ETL工具 一切以用户价值为依归 25 业务应用实践 iData 2 • 支持更多的机器学习算法 • 支持explain 查看整个sql 执行计划 • 集群管理 一切以用户价值为依归 Future0 码力 | 26 页 | 3.58 MB | 1 年前3
共 6 条
- 1













