分布式服务 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

一切以用户价值为依归 6 部署与监控管理 1 线性平滑扩容：扩容： 1.安装新部署新的shard分片机器 2.新shard上创建表结构 3.批量修改当前集群的配置文件增加新的分片 4.名字服务添加节点一切以用户价值为依归 7 部署与监控管理 1 大批量，少批次 WriteModel BatchSize RowLengt h QPM IOUtils Partitions FailedInserts 1 应用监控-业务指标：一切以用户价值为依归 9 部署与监控管理 1 服务监控-错误日志：一切以用户价值为依归 10 部署与监控管理 1 服务监控-请求指标：一切以用户价值为依归 11 部署与监控管理 1 服务监控-扫描详情：一切以用户价值为依归 12 部署与监控管理 1 服务监控-响应耗时：一切以用户价值为依归 13 部署与监控管理 1 立体监控模型：立体监控模型：监控分层监控项敏感度紧急度应用层业务指标，数据异常低高服务层错误日志中中请求指标扫描详情响应耗时物理层磁盘IO，持续负载，流量高低一切以用户价值为依归业务应用实践 iData 14 2 一切以用户价值为依归 15 业务应用实践 iData 2 一切以用户价值为依归 l 游戏数据分析的业务背景 l iData 数据分析引擎TGMars

0 码力 | 26 页 | 3.58 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

ClickHouse集群架构 Ø 虚拟集群最少两台机器在不同的机房； Ø 数据独立，多写，相互不干扰； Ø 数据读取通过应用程序做负载平衡； Ø 灵活创建不同的虚拟集群用于适当的场合； Ø 随时调整服务器，新增/缩减服务器；分布式： k8s的集群式部署全球敏捷运维峰会广州站采用ClickHouse后平台的查询性能 system.query_log表，记录已经执行的查询记录 query：执行的详细SQL，查询相关记录可以左右表join的时候要注意数据量的变化； • 是否采用分布式； • 监控好服务器的cpu/内存波动/`system`.query_log； • 数据存储磁盘尽量采用ssd； • 减少数据中文本信息的冗余存储； • 特别适用于数据量大，查询频次可控的场景，如数据分析，埋点日志系统；全球敏捷运维峰会广州站 StarRocks应用小结 • 发挥分布式的优势，要提前做好分区字段规划； • 支持

0 码力 | 15 页 | 1.33 MB | 1 年前
3
8. Continue to use ClickHouse as TSDB

引入辅助索引，加快数据检索速度低成本存储 • 列式存储结合高效的编码 • Delta、XOR 等适合时序场景的压缩算法 • 通过 Rollup 功能，对历史数据做聚合，减少数据量稳定可扩展 • 分布式架构 • 数据多副本存储 • 服务高可用 Thanks For You

0 码力 | 42 页 | 911.10 KB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ，从事大规模分布式系统研发  10+years C++、Java、Go编程经验，熟悉大数据架构、解决方案  ClickHouse Contributor  Github: https://github ch_label_dist_double ch_label_dist_date 查询分布式表标签数据表 HDFS 导入  HDFS上采用snappy.parquet格式存储数据。  采用AB表切换方式，避免查询和写入的冲突，标签数据表以日期结尾命名。  通过重建分布式表迚行AB表切换，指向丌同日期的标签数据表。  通过增加标签数据表的副本数，提升幵发性能。

0 码力 | 32 页 | 1.47 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

v 交互式分析查询：Superset提供即时查询能⼒ v 离线写⼊服务（Rider） v 实时写⼊服务（BSQL/Saber） ClickHouse 监控管理平台 BSQL/Saber 实时写入服务 Rider 离线写入服务平台服务 Berserker 数据源管理交互式分析查询 Yuuni服务用户内核 Map隐式列 v 原⽣Map使⽤Array of Tuple实现

0 码力 | 26 页 | 2.15 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

3 研发中心 36 个分支机构 4 多名员工下属公司 14 年+ 14 上市千+ 大家用优质的产品和服务推动企业管理和社会进步产品服务 l 集团资源管理 l 资产全寿命周期管理 l 集团风险管控 l 企业大数据及商业智能 l 企业云服务 l 智能机器人应用 l 集团IT治理 l …… l 能源产业链 l 区域能源管理 l 能源大数据 l 购售电平台购售电平台 l …… l 智慧组织 l 智慧城市 l 智慧产业 l …… EDT 企业级大数据平台 BAS区块链企业应用服务平台 ECP 企业云平台服务（咨询、实施、运维、定制开发、系统集成……）面向集团企业面向能源行业面向社会治理公司主要客户海尔集团东风汽车中信重工首创经中河南省人民医院宏发股份国家电网国家电投集团华能集团

0 码力 | 35 页 | 13.25 MB | 1 年前
3
6. ClickHouse在众安的实践

蒙强 2019年10月27日众安保险 • 成立于2013年，是中国第一家互联网保险公司。 • 互联网保险特点： 1. 场景化 2. 高频化 3. 碎片化 • 今年上半年众安上半年服务用户3.5亿，销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式：报表报表≠数据驱动每天被访问超过10次的报表寥寥无几传统报表访问往往是静态的、高聚合、低频、表单式的 ClickHouse 百亿数据性能测试与优化 • 性能瓶颈在硬盘io，实验验证 • 数据分布在三台服务器上 • 执行涉及到全表数据的查询（cold data，从硬盘读取），处理速度为~24.28million rows/s • 只用到三块硬盘的io：3*140=420mb/s • 数据分布在六台服务器上 • 执行涉及到全表数据的查询（cold data，从硬盘读取），处理速度为~43.60million

0 码力 | 28 页 | 4.00 MB | 1 年前
3
3. 数仓ClickHouse多维分析应用实践-朱元

因此采用可视化同步工具kettle. 先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据仓库 Oracle数据平台 • 通过kettle每天定时导出文件至本地 Etl服务器 • 通过clickhouse- client将文本导入ck数据库 clickhouse数据库数仓建设 01 ck数仓数据模型采用星型模型搭建 02 数仓建设 –

0 码力 | 14 页 | 3.03 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

最好分盘存储(推荐SSD)提高ZK的响应 2：zookeeper的snapshot文件存储盘不低于1T 3：做好zookeeper集群和clickhouse集群的规划，可以多套zookeeper集群服务一套clickhouse集群 3.1：zookeeper集群的znode最好能在400w以下(这个时候snapshot文件到达2G+) 3.2：注意监控zookeeper的指标(排队请求?处理延迟?等等)，排队请求太多可能会导致插入失败

0 码力 | 14 页 | 1.10 MB | 1 年前
3

共 9 条前往

页

分类

语言

格式

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

8. Continue to use ClickHouse as TSDB

4. ClickHouse在苏宁用户画像场景的实践

ClickHouse在B站海量数据场景的落地实践

2. ClickHouse MergeTree原理解析-朱凯

6. ClickHouse在众安的实践

3. 数仓ClickHouse多维分析应用实践-朱元

2. Clickhouse玩转每天千亿数据-趣头条