6. ClickHouse在众安的实践传统报表访问往往是静态的、高聚合、低频、表单式的 集智平台可视化交互分析 数据加工的链路与数据价值发现 竞争优势 分析成熟度 洞察与应对 预测与行动 源数据 数据清洗 标准报表 OLAP系统 商务智能(BI) 机器学习建模 人工智能优化 发生了什么? 为什么发生? 什么会发生? 什么是最佳决策? 分析性数据仓库 数据洞察与可视化 数据治理 预测分析与机器学习 CHAPTER 众安集智平台与clickhouse 众安集智平台与clickhouse 02 集智平台 X-Brain AI 开放平台 计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控 数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入 消 息 中 间 件 模型、 算法 模版 机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas processors • 内存: 96GB • 硬盘: 1TB 高效云盘,最大IO吞吐量 140MBps 以事业部、入库时间作双分区导入数据 遇到的问题 导入效率: • 原有导入数据方式在百亿级数据下会报Too many partitions for single INSERT block的问题 • 数据导入慢 原因: • ck-loader-mr方式对大数据量场景支持不够友好 • 单次插入分区过多0 码力 | 28 页 | 4.00 MB | 1 年前3
4. ClickHouse在苏宁用户画像场景的实践特性发布快 3. 软件质量高 4. 物化视图 5. 高基数查询 6. 精确去重计数(count distinct) 3 精确去重计数性能测试 4亿多的数据集上,去重计算出6千万整形数值, 非精确去重函数:uniq、uniqHLL12、uniqCombined 精确去重函数:uniqExact、groupBitmap 函数 时长(秒) 去重后个数 -Merge:将中间计算结果迚行合幵计算,返回最终结果 -MergeState:将中间计算结果迚行合幵计算,返回合幵后的中间结果 ClickHouse集成RoaringBitmap Bitmap的运算函数集: 构造Bitmap类型 Bitmap自身戒者之间的位运算 Bitmap不Array双向转换 Bitmap bitmapToArray Array Integer 用户画像场景2—人群圈选画像 输入条件 返回结果 场景描述 场景:对选出符合发优惠券条件的用户迚行画像分析,人群特征分析。 操作:用户指定标签及标签间的逡辑关系,查询出符合标签逡辑的用户ID数据集,然后对数 据集迚行用户画像分析。一条SQL完成人群圈选、用户画像两个劢作。 标签逡辑表达式,包含标签、算术运算符、逡辑运算符、括号。 查询出符合标签表达式的用户ID Bitmap对象, 然后将Bi0 码力 | 32 页 | 1.47 MB | 1 年前3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰营销活动 Dbbinlog 数据库采集 Game DB 数 据 管 理 + 元 数 据 TDBANK 准实时传输管道 Kafka-Pipeline 实时管道 TDW 数据仓库 采 集 存 储 大数据应用 PaaS平台 数据挖掘与内容推荐 PaaS 精准 推荐 知识 图谱 精细化 运营 … iData 大数据分析PaaS 实时 分析 多维 分析 画像 分析0 码力 | 26 页 | 3.58 MB | 1 年前3
2. Clickhouse玩转每天千亿数据-趣头条clickhouse裸奔时max_memory_usage_for_all_queries默认值为0,即不限制clickhouse内存使用 解决: clickhouse安装完成以后,在users.xml文件中配置一下max_memory_usage_for_all_queries,控制 clickhouse-server最大占用内存,避免被OS kill 我们遇到的问题 Memory limit (for query)0 码力 | 14 页 | 1.10 MB | 1 年前3
共 4 条
- 1













