 6. ClickHouse在众安的实践5亿,销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式:报表 报表≠数据驱动 每天被访问超过10次的报表寥寥无几 传统报表访问往往是静态的、高聚合、低频、表单式的 集智平台可视化交互分析 数据加工的链路与数据价值发现 竞争优势 分析成熟度 洞察与应对 预测与行动 源数据 数据清洗 标准报表 OLAP系统 商务智能(BI) 机器学习建模 人工智能优化 X-Brain AI 开放平台 计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控 数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入 消 息 中 间 件 模型、 算法 模版 机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 数据可视化平台 模板 大数据、流数据建模 | 数据/模型生命周期管理 资源调度 业务系统 开 发 工 具 基 础 设 施 模型 反馈 智能应用 开放与敏捷 • 大数据、流数据统一建模管理 • 垂直方向行业模板,简化开发过程 • 多语言多runtime支持,Bring your own model • 数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 重训练与发布0 码力 | 28 页 | 4.00 MB | 1 年前3 6. ClickHouse在众安的实践5亿,销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式:报表 报表≠数据驱动 每天被访问超过10次的报表寥寥无几 传统报表访问往往是静态的、高聚合、低频、表单式的 集智平台可视化交互分析 数据加工的链路与数据价值发现 竞争优势 分析成熟度 洞察与应对 预测与行动 源数据 数据清洗 标准报表 OLAP系统 商务智能(BI) 机器学习建模 人工智能优化 X-Brain AI 开放平台 计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控 数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入 消 息 中 间 件 模型、 算法 模版 机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 数据可视化平台 模板 大数据、流数据建模 | 数据/模型生命周期管理 资源调度 业务系统 开 发 工 具 基 础 设 施 模型 反馈 智能应用 开放与敏捷 • 大数据、流数据统一建模管理 • 垂直方向行业模板,简化开发过程 • 多语言多runtime支持,Bring your own model • 数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 重训练与发布0 码力 | 28 页 | 4.00 MB | 1 年前3
 2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰MultiTable 100000 1k 21 29 215 NO MultiTable 100000 10k 9 49 413 NO 一切以用户价值为依归 8 部署与监控管理 1 应用监控-业务指标: 一切以用户价值为依归 9 部署与监控管理 1 服务监控-错误日志: 一切以用户价值为依归 10 部署与监控管理 1 服务监控-请求指标: 一切以用户价值为依归 11 部署与监控管理 部署与监控管理 1 立体监控模型: 监控分层 监控项 敏感度 紧急度 应用层 业务指标,数据异常 低 高 服务层 错误日志 中 中 请求指标 扫描详情 响应耗时 物理层 磁盘IO, 持续负载,流量 高 低 一切以用户价值为依归 业务应用实践 iData 14 2 一切以用户价值为依归 15 业务应用实践 iData 2 一切以用户价值为依归 l 游戏数据分析的业务背景 l iData iData 数据分析引擎TGMars l 为什么选用ClickHouse l 平台在ClickHouse上的使用 16 业务应用实践 iData 2 腾讯游戏 数据化驱动服务 场景视图: TGlog 服务端采集 腾讯游戏 服务器 腾讯游戏 移动客户端 微信 小游戏 WEB 游戏 海外 游戏 TDM-SDK 客户端采集 特性 采集 大数据基础 PaaS平台 游戏 营销活动0 码力 | 26 页 | 3.58 MB | 1 年前3 2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰MultiTable 100000 1k 21 29 215 NO MultiTable 100000 10k 9 49 413 NO 一切以用户价值为依归 8 部署与监控管理 1 应用监控-业务指标: 一切以用户价值为依归 9 部署与监控管理 1 服务监控-错误日志: 一切以用户价值为依归 10 部署与监控管理 1 服务监控-请求指标: 一切以用户价值为依归 11 部署与监控管理 部署与监控管理 1 立体监控模型: 监控分层 监控项 敏感度 紧急度 应用层 业务指标,数据异常 低 高 服务层 错误日志 中 中 请求指标 扫描详情 响应耗时 物理层 磁盘IO, 持续负载,流量 高 低 一切以用户价值为依归 业务应用实践 iData 14 2 一切以用户价值为依归 15 业务应用实践 iData 2 一切以用户价值为依归 l 游戏数据分析的业务背景 l iData iData 数据分析引擎TGMars l 为什么选用ClickHouse l 平台在ClickHouse上的使用 16 业务应用实践 iData 2 腾讯游戏 数据化驱动服务 场景视图: TGlog 服务端采集 腾讯游戏 服务器 腾讯游戏 移动客户端 微信 小游戏 WEB 游戏 海外 游戏 TDM-SDK 客户端采集 特性 采集 大数据基础 PaaS平台 游戏 营销活动0 码力 | 26 页 | 3.58 MB | 1 年前3
 4. ClickHouse在苏宁用户画像场景的实践苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ,从事大规模分布式系统研发  10+years C++、Java、Go编程经验,熟悉大数据架构、解决方案  ClickHouse Contributor  Github: https://github ElasticSearch 用户数据 交易数据 HBase Redis 第三方… Spark 用户画像平台 现有的流程:  ES中定义标签的大宽表  通过Spark关联各种业务数据,插入到ES大 宽表。  高频查询的画像数据通过后台任务保存到加 速层:Hbase 戒者 Redis  实时标签通过Flink计算,然后写入Redis  用户画像平台可以从ES、Hbase、Redis查 用户画像平台 ClickHouse2 ClickHouseN to-ch-sql 19 标签数据表定义 20 String Integer Double Date 数据模型定义 ch_label_dist_string ch_label_string_20191011 ch_label_int_20191011 ch_label_double_201910110 码力 | 32 页 | 1.47 MB | 1 年前3 4. ClickHouse在苏宁用户画像场景的实践苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ,从事大规模分布式系统研发  10+years C++、Java、Go编程经验,熟悉大数据架构、解决方案  ClickHouse Contributor  Github: https://github ElasticSearch 用户数据 交易数据 HBase Redis 第三方… Spark 用户画像平台 现有的流程:  ES中定义标签的大宽表  通过Spark关联各种业务数据,插入到ES大 宽表。  高频查询的画像数据通过后台任务保存到加 速层:Hbase 戒者 Redis  实时标签通过Flink计算,然后写入Redis  用户画像平台可以从ES、Hbase、Redis查 用户画像平台 ClickHouse2 ClickHouseN to-ch-sql 19 标签数据表定义 20 String Integer Double Date 数据模型定义 ch_label_dist_string ch_label_string_20191011 ch_label_int_20191011 ch_label_double_201910110 码力 | 32 页 | 1.47 MB | 1 年前3
 2. Clickhouse玩转每天千亿数据-趣头条Clickhouse玩转每天千亿数据 趣头条 王海胜 提纲 • 业务背景 • 集群现状 • 我们遇到的问题 业务背景 基于storm的实时指标的计算存在的问题 1:指标口径(SQL) -> 实时任务 2:数据的回溯 3:稳定性 业务背景 什么是我们需要的? 1:实时指标SQL化 2:数据方便回溯,数据有问题,方便恢复 3:运维需要简单 4:计算要快,在一个周期内,要完成所有的指标的计算 我们遇到的问题 order by (timestamp, eventType) or order by (eventType, timestamp) 业务场景 1:趣头条和米读的上报数据是按照”事件类型”(eventType)进行区分 2:指标系统分”分时”和”累时”指标 3:指标的一般都是会按照eventType进行区分 select count(1) from table where dt='' 2:注意监控zookeeper的指标(排队请求?处理延迟?等等),排队请求太多可能会导致插入失败 我们遇到的问题 关于引擎选择 推荐Replicated*MergeTree引擎 1:安全,数据安全,业务安全 2:升级的时候可以做到业务无感知 3:提升查询的并发度 广告时间0 码力 | 14 页 | 1.10 MB | 1 年前3 2. Clickhouse玩转每天千亿数据-趣头条Clickhouse玩转每天千亿数据 趣头条 王海胜 提纲 • 业务背景 • 集群现状 • 我们遇到的问题 业务背景 基于storm的实时指标的计算存在的问题 1:指标口径(SQL) -> 实时任务 2:数据的回溯 3:稳定性 业务背景 什么是我们需要的? 1:实时指标SQL化 2:数据方便回溯,数据有问题,方便恢复 3:运维需要简单 4:计算要快,在一个周期内,要完成所有的指标的计算 我们遇到的问题 order by (timestamp, eventType) or order by (eventType, timestamp) 业务场景 1:趣头条和米读的上报数据是按照”事件类型”(eventType)进行区分 2:指标系统分”分时”和”累时”指标 3:指标的一般都是会按照eventType进行区分 select count(1) from table where dt='' 2:注意监控zookeeper的指标(排队请求?处理延迟?等等),排队请求太多可能会导致插入失败 我们遇到的问题 关于引擎选择 推荐Replicated*MergeTree引擎 1:安全,数据安全,业务安全 2:升级的时候可以做到业务无感知 3:提升查询的并发度 广告时间0 码力 | 14 页 | 1.10 MB | 1 年前3
 蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎如何来补充ClickHouse 的短板; 4. ClickHouse的调优,运维介绍; 5. 应用总结; 全球敏捷运维峰会 广州站 根据实际业务场景需要来选择 1. 不固定的查询条件,不固定的汇总条件; 2. 数据量日益增量,每天要更新的数据量也不断增大; 3. 业务场景不断增多,涉及面越来越广; 4. 需要保证高可用并秒出; 5. 从Sql,Es, CrateDB, Kylin,Ingite,MongoDB,Hbase 监控好服务器的cpu/内存波动/`system`.query_log; • 数据存储磁盘尽量采用ssd; • 减少数据中文本信息的冗余存储; • 特别适用于数据量大,查询频次可控的场景,如数据分析,埋点日志系统; 全球敏捷运维峰会 广州站 StarRocks应用小结 • 发挥分布式的优势,要提前做好分区字段规划; • 支持各种join,语法会相对clickhouse简单很多; • 一个sql可以多处用;0 码力 | 15 页 | 1.33 MB | 1 年前3 蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎如何来补充ClickHouse 的短板; 4. ClickHouse的调优,运维介绍; 5. 应用总结; 全球敏捷运维峰会 广州站 根据实际业务场景需要来选择 1. 不固定的查询条件,不固定的汇总条件; 2. 数据量日益增量,每天要更新的数据量也不断增大; 3. 业务场景不断增多,涉及面越来越广; 4. 需要保证高可用并秒出; 5. 从Sql,Es, CrateDB, Kylin,Ingite,MongoDB,Hbase 监控好服务器的cpu/内存波动/`system`.query_log; • 数据存储磁盘尽量采用ssd; • 减少数据中文本信息的冗余存储; • 特别适用于数据量大,查询频次可控的场景,如数据分析,埋点日志系统; 全球敏捷运维峰会 广州站 StarRocks应用小结 • 发挥分布式的优势,要提前做好分区字段规划; • 支持各种join,语法会相对clickhouse简单很多; • 一个sql可以多处用;0 码力 | 15 页 | 1.33 MB | 1 年前3
 8. Continue to use ClickHouse as TSDBMemory等系统指标预 测系统未来趋势 不断收集市场变化信 息预测股价涨跌 不断的汇总日成交量从 而制定商业规划 Why we choose it 不断收集CPU、 Memory等系统指标预 测系统未来趋势 不断收集市场变化信 息预测股价涨跌 不断的汇总日成交量从 而制定商业规划 不断收集温度,坐标,方向 ,速度等指标,优化路线和 驾驶方式 ► 上述业务数据特点:0 码力 | 42 页 | 911.10 KB | 1 年前3 8. Continue to use ClickHouse as TSDBMemory等系统指标预 测系统未来趋势 不断收集市场变化信 息预测股价涨跌 不断的汇总日成交量从 而制定商业规划 Why we choose it 不断收集CPU、 Memory等系统指标预 测系统未来趋势 不断收集市场变化信 息预测股价涨跌 不断的汇总日成交量从 而制定商业规划 不断收集温度,坐标,方向 ,速度等指标,优化路线和 驾驶方式 ► 上述业务数据特点:0 码力 | 42 页 | 911.10 KB | 1 年前3
 3. 数仓ClickHouse多维分析应用实践-朱元通过kettle每天 定时导出文件至 本地 Etl服务器 • 通过clickhouse- client将文本导 入ck数据库 clickhouse数据库 数 仓 建 设 01 ck数仓数据模型采用星型模型搭建 02 数 仓 建 设 – 维度表 一般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary) 数 仓 建 设 – 主题事实清单表 主题事实清单表采用引擎MergeTree 每日从 oracle数据平台增量同步到ck数仓. 数 仓 建 设 – 对外数据 目前对外开放是主题事实清单表+维度表 封装成一个视图,类 似如下 数 据 展 示 + 多 维 分析 采用开源报表系统davinci 地址: https://github.com/edp963/davinci 03 1. Memory limit (for query) exceeded 解决:通过在users0 码力 | 14 页 | 3.03 MB | 1 年前3 3. 数仓ClickHouse多维分析应用实践-朱元通过kettle每天 定时导出文件至 本地 Etl服务器 • 通过clickhouse- client将文本导 入ck数据库 clickhouse数据库 数 仓 建 设 01 ck数仓数据模型采用星型模型搭建 02 数 仓 建 设 – 维度表 一般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary) 数 仓 建 设 – 主题事实清单表 主题事实清单表采用引擎MergeTree 每日从 oracle数据平台增量同步到ck数仓. 数 仓 建 设 – 对外数据 目前对外开放是主题事实清单表+维度表 封装成一个视图,类 似如下 数 据 展 示 + 多 维 分析 采用开源报表系统davinci 地址: https://github.com/edp963/davinci 03 1. Memory limit (for query) exceeded 解决:通过在users0 码力 | 14 页 | 3.03 MB | 1 年前3
 2. ClickHouse MergeTree原理解析-朱凯购售电平台 l …… l 智慧组织 l 智慧城市 l 智慧产业 l …… EDT 企业级大数据平台 BAS区块链企业应用服务平台 ECP 企 业 云 平 台 服务(咨询、实施、运维、定制开发、系统集成……) 面向 集团企业 面向 能源行业 面向 社会治理 公司主要客户 海尔集团 东风汽车 中信重工 首创经中 河南省人民医院 宏发股份 国家电网 国家电投集团 华能集团0 码力 | 35 页 | 13.25 MB | 1 年前3 2. ClickHouse MergeTree原理解析-朱凯购售电平台 l …… l 智慧组织 l 智慧城市 l 智慧产业 l …… EDT 企业级大数据平台 BAS区块链企业应用服务平台 ECP 企 业 云 平 台 服务(咨询、实施、运维、定制开发、系统集成……) 面向 集团企业 面向 能源行业 面向 社会治理 公司主要客户 海尔集团 东风汽车 中信重工 首创经中 河南省人民医院 宏发股份 国家电网 国家电投集团 华能集团0 码力 | 35 页 | 13.25 MB | 1 年前3
共 8 条
- 1













