 2. Clickhouse玩转每天千亿数据-趣头条我们遇到的问题 order by (timestamp, eventType) or order by (eventType, timestamp) 业务场景 1:趣头条和米读的上报数据是按照”事件类型”(eventType)进行区分 2:指标系统分”分时”和”累时”指标 3:指标的一般都是会按照eventType进行区分 select count(1) from table where dt='' ernal_group_by 2:max_bytes_before_external_sort 3:uniq / uniqCombined / uniqHLL12 4:Join时小表放到右边,“右表广播” ^v^ 我们遇到的问题 zookeeper相关的问题 问题一:zookeeper的snapshot文件太大,follower从leader同步文件时超时 问题二:zookeeper压力太0 码力 | 14 页 | 1.10 MB | 1 年前3 2. Clickhouse玩转每天千亿数据-趣头条我们遇到的问题 order by (timestamp, eventType) or order by (eventType, timestamp) 业务场景 1:趣头条和米读的上报数据是按照”事件类型”(eventType)进行区分 2:指标系统分”分时”和”累时”指标 3:指标的一般都是会按照eventType进行区分 select count(1) from table where dt='' ernal_group_by 2:max_bytes_before_external_sort 3:uniq / uniqCombined / uniqHLL12 4:Join时小表放到右边,“右表广播” ^v^ 我们遇到的问题 zookeeper相关的问题 问题一:zookeeper的snapshot文件太大,follower从leader同步文件时超时 问题二:zookeeper压力太0 码力 | 14 页 | 1.10 MB | 1 年前3
 ClickHouse在B站海量数据场景的落地实践B站ClickHouse应用概况 v 近400个节点,30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括(不限于): Ø ⽇志&Trace分析 Ø ⽤户⾏为分析(包括事件分析,漏⽃分析,路径分析等) Ø 圈⼈定投 Ø ⼴告DMP(包括统计分析,⼈群预估) Ø 电商交易分析 Ø OGV内容分析 Ø APM (Application Performance Management) 行为数据分析平台主要以下功能模块: 事件分析 v 海量埋点事件数据,⽇增数据千亿级。 v ⽤户⾏为事件的多维度分析场景。 v 事件包含公共属性和私有属性,均可作过滤和聚合维度。 v 不同事件有不同的私有属性字段。 v 动态选择的过滤维度和聚合维度。 v 交互式分析延迟要求 (5秒内)。 路径分析 v 选定中⼼事件。 v 按时间窗⼜确定上下游事件。 v 离线Spark与计算出事件路径及相关⽤户id的RBM。 的RBM。 v 离线计算结果导⼊ClickHouse做交互式路径分析。 漏斗分析 v 预定义事件漏⽃ v ⽀持各个事件单独设置过滤条件 v 查询时间跨度最⼤⼀个⽉ v 数据按user id做Sharding,查询下推 Future Work Future Work v ClickHouse集群容器化,提升物理集群资源使⽤率 v ClickHouse倒排索引调研与改造,提升⽇志检索性能0 码力 | 26 页 | 2.15 MB | 1 年前3 ClickHouse在B站海量数据场景的落地实践B站ClickHouse应用概况 v 近400个节点,30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括(不限于): Ø ⽇志&Trace分析 Ø ⽤户⾏为分析(包括事件分析,漏⽃分析,路径分析等) Ø 圈⼈定投 Ø ⼴告DMP(包括统计分析,⼈群预估) Ø 电商交易分析 Ø OGV内容分析 Ø APM (Application Performance Management) 行为数据分析平台主要以下功能模块: 事件分析 v 海量埋点事件数据,⽇增数据千亿级。 v ⽤户⾏为事件的多维度分析场景。 v 事件包含公共属性和私有属性,均可作过滤和聚合维度。 v 不同事件有不同的私有属性字段。 v 动态选择的过滤维度和聚合维度。 v 交互式分析延迟要求 (5秒内)。 路径分析 v 选定中⼼事件。 v 按时间窗⼜确定上下游事件。 v 离线Spark与计算出事件路径及相关⽤户id的RBM。 的RBM。 v 离线计算结果导⼊ClickHouse做交互式路径分析。 漏斗分析 v 预定义事件漏⽃ v ⽀持各个事件单独设置过滤条件 v 查询时间跨度最⼤⼀个⽉ v 数据按user id做Sharding,查询下推 Future Work Future Work v ClickHouse集群容器化,提升物理集群资源使⽤率 v ClickHouse倒排索引调研与改造,提升⽇志检索性能0 码力 | 26 页 | 2.15 MB | 1 年前3
共 2 条
- 1













