隐式模型绑定 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

ClickHouse在B站海量数据场景的落地实践

⼴告DMP（包括统计分析，⼈群预估） Ø 电商交易分析 Ø OGV内容分析 Ø APM (Application Performance Management) 基于ClickHouse的交互式OLAP技术架构 Cluster-01 Cluster-02 Cluster-n 。。。 ClickHouse Yuuni 定制开发的 ClickHouse-JDBC 与ClickHouse兼容的 Ø 数据重平衡 v 交互式分析查询：Superset提供即时查询能⼒ v 离线写⼊服务（Rider） v 实时写⼊服务（BSQL/Saber） ClickHouse 监控管理平台 BSQL/Saber 实时写入服务 Rider 离线写入服务平台服务 Berserker 数据源管理交互式分析查询 Yuuni服务用户内核 Map隐式列 v 原⽣Map使⽤Array 原⽣Map使⽤Array of Tuple实现 v 原⽣Map查询时需读取⼤量⽆效数据 Map隐式列 v Map隐式列将每个Key存储为独⽴列 v Map隐式列查询时只读取需要的隐式列 Bulkload v 原⽣写⼊⽅式消耗ClickHouse Server资源，影响查询性能 v 实时写⼊任务长期占⽤资源，故障恢复的时间和运维成本较⾼ v 基于中间存储的Bulkload⽅案降低ClickHouse

0 码力 | 26 页 | 2.15 MB | 1 年前
3
6. ClickHouse在众安的实践

5亿，销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式：报表报表≠数据驱动每天被访问超过10次的报表寥寥无几传统报表访问往往是静态的、高聚合、低频、表单式的集智平台可视化交互分析数据加工的链路与数据价值发现竞争优势分析成熟度洞察与应对预测与行动源数据数据清洗标准报表 OLAP系统商务智能（BI）机器学习建模 X-Brain AI 开放平台计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入消息中间件模型、算法模版机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 数据可视化平台模板大数据、流数据建模 | 数据/模型生命周期管理资源调度业务系统开发工具基础设施模型反馈智能应用开放与敏捷 • 大数据、流数据统一建模管理 • 垂直方向行业模板，简化开发过程 • 多语言多runtime支持，Bring your own model • 数据流转、建模、机器学习任务的全生命周期管理 • 大规模在线任务监控、自动模型性能监测、重训练与发布

0 码力 | 28 页 | 4.00 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

一切以用户价值为依归 11 部署与监控管理 1 服务监控-扫描详情：一切以用户价值为依归 12 部署与监控管理 1 服务监控-响应耗时：一切以用户价值为依归 13 部署与监控管理 1 立体监控模型：监控分层监控项敏感度紧急度应用层业务指标，数据异常低高服务层错误日志中中请求指标扫描详情响应耗时物理层磁盘IO，持续负载，流量高低一切以用户价值为依归基于位图的分布式计算引擎 API Server Scheduler SQL-Parser QueryOptimier Column1 DataNode Column2 Column3 ColumnN Column1 DataNode Column2 Column3 ColumnN bitmap 画像下钻分布式计算引擎多维提取 iData大数据分析引擎分布式多维计算引擎分布式多维计算引擎基于位图索引和行式内容存储分布式画像引擎基于位图索引和列式内容存储多维分析跟踪分析下钻分析透视分析画像分析一切以用户价值为依归 19 业务应用实践 iData 2 旧画像系统 Block 1 Block 2 Block … Storage Scheduler Data Stats Gather SQL Parser Query

0 码力 | 26 页 | 3.58 MB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ，从事大规模分布式系统研发  10+years C++、Java、Go编程经验，熟悉大数据架构、解决方案  ClickHouse Contributor  Github: https://github 用户画像平台 ClickHouse2 ClickHouseN to-ch-sql 19 标签数据表定义 20 String Integer Double Date 数据模型定义 ch_label_dist_string ch_label_string_20191011 ch_label_int_20191011 ch_label_double_20191011 ch_label_dist_double ch_label_dist_date 查询分布式表标签数据表 HDFS 导入  HDFS上采用snappy.parquet格式存储数据。  采用AB表切换方式，避免查询和写入的冲突，标签数据表以日期结尾命名。  通过重建分布式表迚行AB表切换，指向丌同日期的标签数据表。  通过增加标签数据表的副本数，提升幵发性能。

0 码力 | 32 页 | 1.47 MB | 1 年前
3
3. 数仓ClickHouse多维分析应用实践-朱元

通过kettle每天定时导出文件至本地 Etl服务器 • 通过clickhouse- client将文本导入ck数据库 clickhouse数据库数仓建设 01 ck数仓数据模型采用星型模型搭建 02 数仓建设 – 维度表一般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary) 数仓建设 – 主题事实清单表主题事实清单表采用引擎MergeTree

0 码力 | 14 页 | 3.03 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

虚拟集群最少两台机器在不同的机房； Ø 数据独立，多写，相互不干扰； Ø 数据读取通过应用程序做负载平衡； Ø 灵活创建不同的虚拟集群用于适当的场合； Ø 随时调整服务器，新增/缩减服务器；分布式： k8s的集群式部署全球敏捷运维峰会广州站采用ClickHouse后平台的查询性能 system.query_log表，记录已经执行的查询记录 query：执行的详细SQL，查询相关记录可以左右表join的时候要注意数据量的变化； • 是否采用分布式； • 监控好服务器的cpu/内存波动/`system`.query_log； • 数据存储磁盘尽量采用ssd； • 减少数据中文本信息的冗余存储； • 特别适用于数据量大，查询频次可控的场景，如数据分析，埋点日志系统；全球敏捷运维峰会广州站 StarRocks应用小结 • 发挥分布式的优势，要提前做好分区字段规划； • 支持各

0 码力 | 15 页 | 1.33 MB | 1 年前
3
8. Continue to use ClickHouse as TSDB

引入辅助索引，加快数据检索速度低成本存储 • 列式存储结合高效的编码 • Delta、XOR 等适合时序场景的压缩算法 • 通过 Rollup 功能，对历史数据做聚合，减少数据量稳定可扩展 • 分布式架构 • 数据多副本存储 • 服务高可用 Thanks For You

0 码力 | 42 页 | 911.10 KB | 1 年前
3

共 7 条前往

页

分类

语言

格式

ClickHouse在B站海量数据场景的落地实践

6. ClickHouse在众安的实践

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

4. ClickHouse在苏宁用户画像场景的实践

3. 数仓ClickHouse多维分析应用实践-朱元

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

8. Continue to use ClickHouse as TSDB