 蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎ClickHouse/StarRocks在酒店数据智能平台的架构 全球敏捷运维峰会 广州站 ClickHouse的全量数据同步流程 1. 清空A_temp表,将最新的数据从Hive通过ETL导入 到A_temp表; 2. 将A rename 成A_temp_temp; 3. 将A_temp rename成 A; 4. 将A_ temp_temp 的方式大幅提升写入速度; 2. 直接读Hdfs文件的方式,但内存波动较大; 全球敏捷运维峰会 广州站 ClickHouse的增量数据同步流程 传统方式: 1. 将最近3个月的数据从Hive通过ETL入到A_temp表; 2. 将A表中3个月之前的数据select into到A_temp表; 3. 将A rename 成A_temp_temp;0 码力 | 15 页 | 1.33 MB | 1 年前3 蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎ClickHouse/StarRocks在酒店数据智能平台的架构 全球敏捷运维峰会 广州站 ClickHouse的全量数据同步流程 1. 清空A_temp表,将最新的数据从Hive通过ETL导入 到A_temp表; 2. 将A rename 成A_temp_temp; 3. 将A_temp rename成 A; 4. 将A_ temp_temp 的方式大幅提升写入速度; 2. 直接读Hdfs文件的方式,但内存波动较大; 全球敏捷运维峰会 广州站 ClickHouse的增量数据同步流程 传统方式: 1. 将最近3个月的数据从Hive通过ETL入到A_temp表; 2. 将A表中3个月之前的数据select into到A_temp表; 3. 将A rename 成A_temp_temp;0 码力 | 15 页 | 1.33 MB | 1 年前3
 6. ClickHouse在众安的实践众安集智平台与clickhouse 02 集智平台 X-Brain AI 开放平台 计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控 数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入 消 息 中 间 件 模型、 算法 模版 机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 使用clickhouse原生insert format csv 配合linux pipline导入 hadoop fs -cat 'hdfs://hadoop-namenode:port/user/hive/user/2013/000000_0' | clickhouse-client --host=127.0.0.1 -- port=10000 -u user --password password0 码力 | 28 页 | 4.00 MB | 1 年前3 6. ClickHouse在众安的实践众安集智平台与clickhouse 02 集智平台 X-Brain AI 开放平台 计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控 数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入 消 息 中 间 件 模型、 算法 模版 机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 使用clickhouse原生insert format csv 配合linux pipline导入 hadoop fs -cat 'hdfs://hadoop-namenode:port/user/hive/user/2013/000000_0' | clickhouse-client --host=127.0.0.1 -- port=10000 -u user --password password0 码力 | 28 页 | 4.00 MB | 1 年前3
 4. ClickHouse在苏宁用户画像场景的实践疏的Bitmap和稠密的占用空间相 同。通常会使用一种bitmap压缩算法迚行优化。 RoaringBitmap是一种已被业界广泛使用的高效的bitmap压缩算法,使用者包括Spark、 Hive、ElasticSearch、Kylin、Druid、InfluxDB等, 详见:http://roaringbitmap.org/ 通过单个bitmap可以完成精确去重操作,通过多个bi 千万级用户, 秒级出结果! Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 17 用户画像原有的流程及痛点 Hive表 商品数据 ElasticSearch 用户数据 交易数据 HBase Redis 第三方… Spark 用户画像平台 现有的流程:  ES中定义标签的大宽表0 码力 | 32 页 | 1.47 MB | 1 年前3 4. ClickHouse在苏宁用户画像场景的实践疏的Bitmap和稠密的占用空间相 同。通常会使用一种bitmap压缩算法迚行优化。 RoaringBitmap是一种已被业界广泛使用的高效的bitmap压缩算法,使用者包括Spark、 Hive、ElasticSearch、Kylin、Druid、InfluxDB等, 详见:http://roaringbitmap.org/ 通过单个bitmap可以完成精确去重操作,通过多个bi 千万级用户, 秒级出结果! Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 17 用户画像原有的流程及痛点 Hive表 商品数据 ElasticSearch 用户数据 交易数据 HBase Redis 第三方… Spark 用户画像平台 现有的流程:  ES中定义标签的大宽表0 码力 | 32 页 | 1.47 MB | 1 年前3
 ClickHouse在B站海量数据场景的落地实践与ClickHouse兼容的 HTTP 接口 请求管理/流量控制 查询缓存 查询分发器 查询处理器 ClickHouse 监控管理平台 元数据管理 库表管理 权限管理 埋点分析 报表平台 HDFS/Hive Kafka/Databus 离线接入 (Rider/Spark/WaterDrop) 实时接入 (BSQL/Saber/Flink & ClickHouse JDBC) Applications0 码力 | 26 页 | 2.15 MB | 1 年前3 ClickHouse在B站海量数据场景的落地实践与ClickHouse兼容的 HTTP 接口 请求管理/流量控制 查询缓存 查询分发器 查询处理器 ClickHouse 监控管理平台 元数据管理 库表管理 权限管理 埋点分析 报表平台 HDFS/Hive Kafka/Databus 离线接入 (Rider/Spark/WaterDrop) 实时接入 (BSQL/Saber/Flink & ClickHouse JDBC) Applications0 码力 | 26 页 | 2.15 MB | 1 年前3
 2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰6 7 8 1 2 3 4 5 6 7 8 4亿数据下钻耗时(单机) clickhosue tgface 一切以用户价值为依归 22 业务应用实践 iData 2 • TDW HIVE SQL • 转换成拓展的列 • 嵌套数据类型 • array 数据类型 {"2000352":"2","2":"4","50":"1","26":"28","31":"42"} {"26":"16"}0 码力 | 26 页 | 3.58 MB | 1 年前3 2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰6 7 8 1 2 3 4 5 6 7 8 4亿数据下钻耗时(单机) clickhosue tgface 一切以用户价值为依归 22 业务应用实践 iData 2 • TDW HIVE SQL • 转换成拓展的列 • 嵌套数据类型 • array 数据类型 {"2000352":"2","2":"4","50":"1","26":"28","31":"42"} {"26":"16"}0 码力 | 26 页 | 3.58 MB | 1 年前3
共 5 条
- 1













