6. ClickHouse在众安的实践传统报表访问往往是静态的、高聚合、低频、表单式的 集智平台可视化交互分析 数据加工的链路与数据价值发现 竞争优势 分析成熟度 洞察与应对 预测与行动 源数据 数据清洗 标准报表 OLAP系统 商务智能(BI) 机器学习建模 人工智能优化 发生了什么? 为什么发生? 什么会发生? 什么是最佳决策? 分析性数据仓库 数据洞察与可视化 数据治理 预测分析与机器学习 CHAPTER 众安集智平台与clickhouse 众安集智平台与clickhouse 02 集智平台 X-Brain AI 开放平台 计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控 数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入 消 息 中 间 件 模型、 算法 模版 机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas X-Zatlas 数据可视化平台 模板 X-BI 数据探索平台 图像分类 平台 OCR工具 链 X-Farm 异构数据治理、协同平台 元数据管理/数据集市 数据权限管理 | 大数据、流数据建模 | 数据/模型生命周期管理 资源调度 业务系统 开 发 工 具 基 础 设 施 模型 反馈 智能应用 开放与敏捷 • 大数据、流数据统一建模管理 • 垂直方向行业模板,简化开发过程0 码力 | 28 页 | 4.00 MB | 1 年前3
 2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰营销活动 Dbbinlog 数据库采集 Game DB 数 据 管 理 + 元 数 据 TDBANK 准实时传输管道 Kafka-Pipeline 实时管道 TDW 数据仓库 采 集 存 储 大数据应用 PaaS平台 数据挖掘与内容推荐 PaaS 精准 推荐 知识 图谱 精细化 运营 … iData 大数据分析PaaS 实时 分析 多维 分析 画像 分析 iData 2 如何使用ClickHouse ClickHouse集群 TGMARS DATA 消息中间件 RDBMS(MYSQL) 数据仓库(TDW) 画像服务 BI服务 查询服务 ETL工具 一切以用户价值为依归 25 业务应用实践 iData 2 • 支持更多的机器学习算法 • 支持explain 查看整个sql 执行计划 • 集群管理 一切以用户价值为依归 Future0 码力 | 26 页 | 3.58 MB | 1 年前3
 4. ClickHouse在苏宁用户画像场景的实践特性发布快 3. 软件质量高 4. 物化视图 5. 高基数查询 6. 精确去重计数(count distinct) 3 精确去重计数性能测试 4亿多的数据集上,去重计算出6千万整形数值, 非精确去重函数:uniq、uniqHLL12、uniqCombined 精确去重函数:uniqExact、groupBitmap 函数 时长(秒) 去重后个数 -Merge:将中间计算结果迚行合幵计算,返回最终结果 -MergeState:将中间计算结果迚行合幵计算,返回合幵后的中间结果 ClickHouse集成RoaringBitmap Bitmap的运算函数集:  构造Bitmap类型  Bitmap自身戒者之间的位运算  Bitmap不Array双向转换 Bitmap bitmapToArray Array Integer 用户画像场景2—人群圈选画像 输入条件 返回结果 场景描述 场景:对选出符合发优惠券条件的用户迚行画像分析,人群特征分析。 操作:用户指定标签及标签间的逡辑关系,查询出符合标签逡辑的用户ID数据集,然后对数 据集迚行用户画像分析。一条SQL完成人群圈选、用户画像两个劢作。 标签逡辑表达式,包含标签、算术运算符、逡辑运算符、括号。 查询出符合标签表达式的用户ID Bitmap对象, 然后将Bi0 码力 | 32 页 | 1.47 MB | 1 年前3
 3. 数仓ClickHouse多维分析应用实践-朱元数据链路长 现状 即席查询性能差 数据压缩率低 需求响应慢 02 数据架构 数据同步ck 01 1,基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本 因此采用可视化同步工具kettle. 先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据 仓库 Oracle数据平台 • 通过kettle每天 定时导出文件至 本地 Etl服务器0 码力 | 14 页 | 3.03 MB | 1 年前3
共 4 条
- 1
 













