多方安全计算框架 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

2. Clickhouse玩转每天千亿数据-趣头条

集群现状 • 我们遇到的问题业务背景基于storm的实时指标的计算存在的问题 1：指标口径(SQL) -> 实时任务 2：数据的回溯 3：稳定性业务背景什么是我们需要的? 1：实时指标SQL化 2：数据方便回溯，数据有问题，方便恢复 3：运维需要简单 4：计算要快，在一个周期内，要完成所有的指标的计算集群现状 100+台32核128G 部分复杂累时查询30S内完成 timestamp<='' and eventType='' 建表的时候缺乏深度思考，由于分时指标的特性，我们的表是order by (timestamp, eventType)进行索引的，这样在计算累时指标的时候出现非常耗时(600亿+数据量) 分析：对于累时数据，时间索引基本就失效了，由于timestamp”基数”比较高，对于排在第二位eventType索引，这个时候对数据的过滤就非常 2：注意监控zookeeper的指标(排队请求?处理延迟?等等)，排队请求太多可能会导致插入失败我们遇到的问题关于引擎选择推荐Replicated*MergeTree引擎 1：安全，数据安全，业务安全 2：升级的时候可以做到业务无感知 3：提升查询的并发度广告时间

0 码力 | 14 页 | 1.10 MB | 1 年前
3
6. ClickHouse在众安的实践

什么是最佳决策？分析性数据仓库数据洞察与可视化数据治理预测分析与机器学习 CHAPTER 众安集智平台与clickhouse 02 集智平台 X-Brain AI 开放平台计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入消不灵活：用户有新标签需求时，需要提需求给标签开发人员排期开发需求，开发人员开发完再更新到系统中，这时离需求提出可能已经过去几天，无法及时给到业务人员反馈。思路利用clickhouse实时计算的高效性能，对原始数据进行查询分析，从而支持用户灵活的定义标签并让用户实时得到反馈。标签平台 clickhouse 保单表用户表用户行为表数据 • 历史保单数据 join 用户数据

0 码力 | 28 页 | 4.00 MB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

3. 软件质量高 4. 物化视图 5. 高基数查询 6. 精确去重计数（count distinct） 3 精确去重计数性能测试 4亿多的数据集上，去重计算出6千万整形数值，非精确去重函数：uniq、uniqHLL12、uniqCombined 精确去重函数：uniqExact、groupBitmap 函数时长（秒）去重后个数误差个数标签数据的存储、用户画像查询引擎。 7 Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 8 Bitmap位存储和位计算每个bit位表示一个数字id，对亍40亿个的用户id，只需要40亿bit位，约477m大小 = （4 * 109 / 8 / 1024 / 1024）但是如果使用上述的数据结构存详见：http://roaringbitmap.org/ 通过单个bitmap可以完成精确去重操作，通过多个bitmap的and、or、xor、andnot等位操作完成留存分析、漏斗分析、用户画像分析等场景的计算。 00101110 00100001 00100000 …… Byte[0] Byte[1] Byte[2] Byte[n] 9 Index = 8 集合：[1, 2

0 码力 | 32 页 | 1.47 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

Database 大数据仓库 Hadoop Data Lake 计算引擎 MR & Spark Data Warehouse OLTP Big Data Analysis 数据报表多维聚合 iData大数据分析引擎 TGMars TGSpark & Storage 大数据仓库 Hadoop Data Lake 计算引擎 MR & Spark Data Warehouse DataNode 基于位图的分布式计算引擎 API Server Scheduler SQL-Parser QueryOptimier Column1 DataNode Column2 Column3 ColumnN Column1 DataNode Column2 Column3 ColumnN bitmap 画像下钻分布式计算引擎多维提取 iData大数据分析引擎 iData大数据分析引擎分布式多维计算引擎基于位图索引和行式内容存储分布式画像引擎基于位图索引和列式内容存储多维分析跟踪分析下钻分析透视分析画像分析一切以用户价值为依归 19 业务应用实践 iData 2 旧画像系统 Block 1 Block 2 Block … Storage Scheduler Data Stats Gather

0 码力 | 26 页 | 3.58 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

不同事件有不同的私有属性字段。 v 动态选择的过滤维度和聚合维度。 v 交互式分析延迟要求 (5秒内)。路径分析 v 选定中⼼事件。 v 按时间窗⼜确定上下游事件。 v 离线Spark与计算出事件路径及相关⽤户id的RBM。 v 离线计算结果导⼊ClickHouse做交互式路径分析。漏斗分析 v 预定义事件漏⽃ v ⽀持各个事件单独设置过滤条件 v 查询时间跨度最⼤⼀个⽉ v 数据按user id做Sharding，查询下推 v ClickHouse集群容器化，提升物理集群资源使⽤率 v ClickHouse倒排索引调研与改造，提升⽇志检索性能 v 丰富ClickHouse编码类型，拓展zorder应⽤场景，提升圈选计算性能 v ClickHouse存算分离探索，降低集群扩容成本 Q&A

0 码力 | 26 页 | 2.15 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

的特点优点： 1. 数据压缩比高，存储成本相对非常低； 2. 支持常用的SQL语法，写入速度非常快，适用于大量的数据更新； 3. 依赖稀疏索引，列式存储，cpu/内存的充分利用造就了优秀的计算能力，并且不用考虑左侧原则；缺点： 1. 不支持事务，没有真正的update/delete； 2. 不支持高并发，可以根据实际情况修改qps相关配置文件；全球敏捷运维峰会广州站

0 码力 | 15 页 | 1.33 MB | 1 年前
3

共 6 条前往

页

分类

语言

格式

2. Clickhouse玩转每天千亿数据-趣头条

6. ClickHouse在众安的实践

4. ClickHouse在苏宁用户画像场景的实践

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

ClickHouse在B站海量数据场景的落地实践

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎