 ClickHouse在B站海量数据场景的落地实践ClickHouse在B站海量数据场景的落地实践 胡甫旺 哔哩哔哩OLAP平台 目录 vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点,30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括(不限于): Ø write-write冲突依靠table level lock控制 v write-merge冲突: Unique Engine v 常驻内存模式对内存消耗很⼤ v ⾮常驻内存模式index load过程慢 v 多并发加载优化索引加载速度: 日志 日志 v Elastic To ClickHouse迁移,降本增效 v OTEL标准化⽇志采集 v 统⼀scheme⽀持 日志 v ClickHouse较ES写⼊吞吐量提升近10倍 概述 v 基于ClickHouse构建B站⽤户⾏为数据分析产品:北极星 v 行为数据分析平台主要以下功能模块: 事件分析 v 海量埋点事件数据,⽇增数据千亿级。 v ⽤户⾏为事件的多维度分析场景。 v 事件包含公共属性和私有属性,均可作过滤和聚合维度。 v 不同事件有不同的私有属性字段。 v 动态选择的过滤维度和聚合维度。 v 交互式分析延迟要求 (5秒内)。 路径分析 v 选定中⼼事件。0 码力 | 26 页 | 2.15 MB | 1 年前3 ClickHouse在B站海量数据场景的落地实践ClickHouse在B站海量数据场景的落地实践 胡甫旺 哔哩哔哩OLAP平台 目录 vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点,30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括(不限于): Ø write-write冲突依靠table level lock控制 v write-merge冲突: Unique Engine v 常驻内存模式对内存消耗很⼤ v ⾮常驻内存模式index load过程慢 v 多并发加载优化索引加载速度: 日志 日志 v Elastic To ClickHouse迁移,降本增效 v OTEL标准化⽇志采集 v 统⼀scheme⽀持 日志 v ClickHouse较ES写⼊吞吐量提升近10倍 概述 v 基于ClickHouse构建B站⽤户⾏为数据分析产品:北极星 v 行为数据分析平台主要以下功能模块: 事件分析 v 海量埋点事件数据,⽇增数据千亿级。 v ⽤户⾏为事件的多维度分析场景。 v 事件包含公共属性和私有属性,均可作过滤和聚合维度。 v 不同事件有不同的私有属性字段。 v 动态选择的过滤维度和聚合维度。 v 交互式分析延迟要求 (5秒内)。 路径分析 v 选定中⼼事件。0 码力 | 26 页 | 2.15 MB | 1 年前3
 ClickHouse在苏宁用户画像场景的实践ClickHouse 在苏宁用户画像场景的实践 二〇一九年十月 苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ,从事大规模分布式系统研发  10+years C++、Java、Go编程经验,熟悉大数据架构、解决方案  ClickHouse 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 2 选择ClickHouse的原因 1. 速度快 2. 特性发布快 3. 软件质量高 4. 物化视图 5. 高基数查询 6. 精确去重计数(count distinct) 3 精确去重计数性能测试 4亿多的数据集上,去重计算出6千万整形数值, 非精确去重函 0 10 20 30 40 50 60 时长 结论: • 整形值精确去重场景,groupBitmap 比 uniqExact至少快 2x+ • groupBitmap仅支持整形值去重, uniqExact支持任意类型去重。 • 非精确去重场景,uniq在精准度上有优势。 5 0.25 0.46 0.29 0 0 0 0.050 码力 | 32 页 | 1.47 MB | 1 年前3 ClickHouse在苏宁用户画像场景的实践ClickHouse 在苏宁用户画像场景的实践 二〇一九年十月 苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ,从事大规模分布式系统研发  10+years C++、Java、Go编程经验,熟悉大数据架构、解决方案  ClickHouse 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 2 选择ClickHouse的原因 1. 速度快 2. 特性发布快 3. 软件质量高 4. 物化视图 5. 高基数查询 6. 精确去重计数(count distinct) 3 精确去重计数性能测试 4亿多的数据集上,去重计算出6千万整形数值, 非精确去重函 0 10 20 30 40 50 60 时长 结论: • 整形值精确去重场景,groupBitmap 比 uniqExact至少快 2x+ • groupBitmap仅支持整形值去重, uniqExact支持任意类型去重。 • 非精确去重场景,uniq在精准度上有优势。 5 0.25 0.46 0.29 0 0 0 0.050 码力 | 32 页 | 1.47 MB | 1 年前3
 PostgreSQL WAL日志解析与应用Postgres Conference China 2016 中国用户大会 PostgreSQL WAL日志解析与应用 王硕 山东瀚高基础软件股份有限公司 2016Postgres中国用户大会 Postgres Conference China 2016 中国用户大会 CONTENTS Part 01 Part 02 Part 03 WAL 日志简介 • 逻辑复制 • 误操作恢复 2016Postgres中国用户大会 Postgres Conference China 2016 中国用户大会  Logminter • 利用多版本特性,尽可能恢复数据。 • 打开pg_log,查找误操作信息,进行还原。 • 利用pg_xlogdump查看wal日志信息,确定时 间点,然后恢复。 2016Postgres中国用户大会0 码力 | 16 页 | 705.31 KB | 1 年前3 PostgreSQL WAL日志解析与应用Postgres Conference China 2016 中国用户大会 PostgreSQL WAL日志解析与应用 王硕 山东瀚高基础软件股份有限公司 2016Postgres中国用户大会 Postgres Conference China 2016 中国用户大会 CONTENTS Part 01 Part 02 Part 03 WAL 日志简介 • 逻辑复制 • 误操作恢复 2016Postgres中国用户大会 Postgres Conference China 2016 中国用户大会  Logminter • 利用多版本特性,尽可能恢复数据。 • 打开pg_log,查找误操作信息,进行还原。 • 利用pg_xlogdump查看wal日志信息,确定时 间点,然后恢复。 2016Postgres中国用户大会0 码力 | 16 页 | 705.31 KB | 1 年前3
 Cassandra在饿了么的应用Cassandra在饿了么的应用 主讲人:翟玉勇 时间:2017.06.11 1.Cassandra的基本原理介绍 2.为什么选择Cassandra 3.饿了么Cassandra实践 4.大数据离线平台和Cassandra的整合 概述 Cassandra历史 BigTable Dynamo Cassandra概述 Cassandra最初源自FaceBook,集合了Google BigTable面向列的特 replication = {'class': 'SimpleStrategy', ‘replication_factor' : 3} 2.NetworkTopologyStrategy 用于多IDC场景,可指定每个IDC有多少replicas CREATE KEYSPACE dw WITH replication = {'class': 'NetworkTopologyStrategy', 'DC-SH' 1)类似sql的cql语言,对开发友好,低成本上手 2)DataStax公司提供的强大的java client 3)可调节的数据一致性 4)异步接口 3.适用场景 1)Cassandra自带多idc策略 2)我们的业务需求 Cassandra在饿了么的实践 1.生产应用 1)用户画像 2)历史订单 3)dt.api 2.Client选择 3.运维和监控 4.性能调优 1.5 node 2.2.4亿+用户数据0 码力 | 40 页 | 4.95 MB | 1 年前3 Cassandra在饿了么的应用Cassandra在饿了么的应用 主讲人:翟玉勇 时间:2017.06.11 1.Cassandra的基本原理介绍 2.为什么选择Cassandra 3.饿了么Cassandra实践 4.大数据离线平台和Cassandra的整合 概述 Cassandra历史 BigTable Dynamo Cassandra概述 Cassandra最初源自FaceBook,集合了Google BigTable面向列的特 replication = {'class': 'SimpleStrategy', ‘replication_factor' : 3} 2.NetworkTopologyStrategy 用于多IDC场景,可指定每个IDC有多少replicas CREATE KEYSPACE dw WITH replication = {'class': 'NetworkTopologyStrategy', 'DC-SH' 1)类似sql的cql语言,对开发友好,低成本上手 2)DataStax公司提供的强大的java client 3)可调节的数据一致性 4)异步接口 3.适用场景 1)Cassandra自带多idc策略 2)我们的业务需求 Cassandra在饿了么的实践 1.生产应用 1)用户画像 2)历史订单 3)dt.api 2.Client选择 3.运维和监控 4.性能调优 1.5 node 2.2.4亿+用户数据0 码力 | 40 页 | 4.95 MB | 1 年前3
 孟浩然-Apache ShardingSphere 架构解析&应用实践Apache ShardingSphere 架构解析与应用实践 孟浩然 2021/12/11 01 孟浩然 SphereEx 高级研发工程师 Apache ShardingSphere PMC 曾就职京东科技,负责数据库产品研发,热爱开源,关注数据库生态,目前就职 SphereEx , 专 注于 Apache ShardingSphere 分布式数据库中间件研发以及开源社区建设 1 1. Apache ShardingSphere 5.0.0 架构解析 2. 5.0.0 应用实践 3. Database Plus 解决方案 目录 产 品 定 位 l 构建异构数据库的上层标准和生态 l 提供精准化和差异化的能力 产 品 定 位 4.X 5.X 定位 分 库 分 表 中 间 件 分 布 式 数 据 库 生 态 系 统 功能 提 供 基 础 功 能 提 供 基 础 署 架 构 l ShardingSphere-JDBC 采用无中心化架 构,与应用程序共享资源,适用于 Java 开发的高性能的轻量级 OLTP 应用; l ShardingSphere-Proxy 提供静态入口 以及异构语言的支持,独立于应用程序 部署,适用于 OLAP 应用以及对分片数 据库进行管理和运维的场景。 整 体 架 构 l L1 内核层:面向数据库内核, 包括数据库事务引擎,查询优0 码力 | 31 页 | 2.36 MB | 1 年前3 孟浩然-Apache ShardingSphere 架构解析&应用实践Apache ShardingSphere 架构解析与应用实践 孟浩然 2021/12/11 01 孟浩然 SphereEx 高级研发工程师 Apache ShardingSphere PMC 曾就职京东科技,负责数据库产品研发,热爱开源,关注数据库生态,目前就职 SphereEx , 专 注于 Apache ShardingSphere 分布式数据库中间件研发以及开源社区建设 1 1. Apache ShardingSphere 5.0.0 架构解析 2. 5.0.0 应用实践 3. Database Plus 解决方案 目录 产 品 定 位 l 构建异构数据库的上层标准和生态 l 提供精准化和差异化的能力 产 品 定 位 4.X 5.X 定位 分 库 分 表 中 间 件 分 布 式 数 据 库 生 态 系 统 功能 提 供 基 础 功 能 提 供 基 础 署 架 构 l ShardingSphere-JDBC 采用无中心化架 构,与应用程序共享资源,适用于 Java 开发的高性能的轻量级 OLTP 应用; l ShardingSphere-Proxy 提供静态入口 以及异构语言的支持,独立于应用程序 部署,适用于 OLAP 应用以及对分片数 据库进行管理和运维的场景。 整 体 架 构 l L1 内核层:面向数据库内核, 包括数据库事务引擎,查询优0 码力 | 31 页 | 2.36 MB | 1 年前3
 如何用 MySQL 构建全方位高可用应用并不仅仅是可靠地存储数据 支持高可用性的各个层 数据的冗余访问路径 数据冗余存储 冗余应用服务器 数据路由 4/16/2017 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 6 并不仅仅是可靠地存储数据 支持高可用性的各个层 数据的冗余访问路径 数据冗余存储 冗余应用服务器 数据路由 4/16/2017 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 MySQL Cluster 从数据库 • 会话线程:处理来自应用程序的查询 - 将 数据写入主数据库,将关联事件写入二进制 日志 • 转储线程:读取二进制日志中的事件,然后 将其发送到从数据库 • I/O 线程:接收复制事件,并将其存储在从 数据库的中继日志中 • SQL 线程:读取从数据库的中继日志中的复 制事件,然后将其应用到从数据库 MySQL 复制工作流 会话 二进制 日志 和/或其附属公司。保留所有权利。 为何进行复制? •将数据库从“主服务器”复制到“从服务器” – 数据的冗余副本奠定了高可用性的基础 – 通过在复制场中进行分布式查询来扩展 主 从 Web/应用服务器 写入和读取 读取 4/16/2017 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 9 •异步 – MySQL 默认设置 – 并行:主数据库向应 用程序发送确认,在0 码力 | 40 页 | 2.19 MB | 1 年前3 如何用 MySQL 构建全方位高可用应用并不仅仅是可靠地存储数据 支持高可用性的各个层 数据的冗余访问路径 数据冗余存储 冗余应用服务器 数据路由 4/16/2017 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 6 并不仅仅是可靠地存储数据 支持高可用性的各个层 数据的冗余访问路径 数据冗余存储 冗余应用服务器 数据路由 4/16/2017 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 MySQL Cluster 从数据库 • 会话线程:处理来自应用程序的查询 - 将 数据写入主数据库,将关联事件写入二进制 日志 • 转储线程:读取二进制日志中的事件,然后 将其发送到从数据库 • I/O 线程:接收复制事件,并将其存储在从 数据库的中继日志中 • SQL 线程:读取从数据库的中继日志中的复 制事件,然后将其应用到从数据库 MySQL 复制工作流 会话 二进制 日志 和/或其附属公司。保留所有权利。 为何进行复制? •将数据库从“主服务器”复制到“从服务器” – 数据的冗余副本奠定了高可用性的基础 – 通过在复制场中进行分布式查询来扩展 主 从 Web/应用服务器 写入和读取 读取 4/16/2017 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 9 •异步 – MySQL 默认设置 – 并行:主数据库向应 用程序发送确认,在0 码力 | 40 页 | 2.19 MB | 1 年前3
 [PingCAP Meetup SH 5.26]TiDB在易果集团的应用4、分析师可以在TiDB⾥里里⾯面做数据探索,数据分析 架构 TiDB⽬目前应⽤用现状 现状 接⼝口平台 TiDB接⼊入的数据对外提供数据接 ⼝口服务 开发成本:天级别 � ⼩小时级别 数据中台接⼊入更更多业务 TP向业务使⽤用TiDB 统⼀一的流式/近实时数据抽取,加⼯工调度平台 更更加明确TiDB和TiSpark引擎的选择 未来规划 凡是过往,皆为序章 Thank you!0 码力 | 12 页 | 585.78 KB | 6 月前3 [PingCAP Meetup SH 5.26]TiDB在易果集团的应用4、分析师可以在TiDB⾥里里⾯面做数据探索,数据分析 架构 TiDB⽬目前应⽤用现状 现状 接⼝口平台 TiDB接⼊入的数据对外提供数据接 ⼝口服务 开发成本:天级别 � ⼩小时级别 数据中台接⼊入更更多业务 TP向业务使⽤用TiDB 统⼀一的流式/近实时数据抽取,加⼯工调度平台 更更加明确TiDB和TiSpark引擎的选择 未来规划 凡是过往,皆为序章 Thank you!0 码力 | 12 页 | 585.78 KB | 6 月前3
 Apache Doris 在美团外卖数仓中的应用实践Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com Apache Doris在美团外卖数仓中的应用实践 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来 的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于 种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数 据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado 数据进行适当的分层、加工、管理。而 在数据应用交互层面,由于时效性的要求,数据最终的展现查询还是需要通过DBMS(MySQL) 、MOLAP(Kylin)引擎来进行支撑。如下图所示: 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 汇总数据的交互 业务团队日常经营分析最典型的场景就是各种维度下的自定义查询,面对如此灵活可变、所见即0 码力 | 8 页 | 429.42 KB | 1 年前3 Apache Doris 在美团外卖数仓中的应用实践Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com Apache Doris在美团外卖数仓中的应用实践 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来 的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于 种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数 据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado 数据进行适当的分层、加工、管理。而 在数据应用交互层面,由于时效性的要求,数据最终的展现查询还是需要通过DBMS(MySQL) 、MOLAP(Kylin)引擎来进行支撑。如下图所示: 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 汇总数据的交互 业务团队日常经营分析最典型的场景就是各种维度下的自定义查询,面对如此灵活可变、所见即0 码力 | 8 页 | 429.42 KB | 1 年前3
 数仓ClickHouse多维分析应用实践-朱元clickhouse数仓应用实践 演讲人:朱元 日期: 2019-10-20 所遇问题 目录 CONTENTS 现状背景 应用实践 01 数据链路长 现状 即席查询性能差 数据压缩率低 需求响应慢 02 数据架构 数据同步ck 01 1,基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本 因此采用可视化同步工具kettle. 先将oracle数据平台维 主题事实清单表采用引擎MergeTree. 同步策略: 每日从 oracle数据平台增量同步到ck数仓. 数 仓 建 设 – 对外数据 目前对外开放是主题事实清单表+维度表 封装成一个视图,类 似如下 数 据 展 示 + 多 维 分析 采用开源报表系统davinci 地址: https://github.com/edp963/davinci 03 1. Memory limit (for query) exceeded0 码力 | 14 页 | 3.03 MB | 1 年前3 数仓ClickHouse多维分析应用实践-朱元clickhouse数仓应用实践 演讲人:朱元 日期: 2019-10-20 所遇问题 目录 CONTENTS 现状背景 应用实践 01 数据链路长 现状 即席查询性能差 数据压缩率低 需求响应慢 02 数据架构 数据同步ck 01 1,基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本 因此采用可视化同步工具kettle. 先将oracle数据平台维 主题事实清单表采用引擎MergeTree. 同步策略: 每日从 oracle数据平台增量同步到ck数仓. 数 仓 建 设 – 对外数据 目前对外开放是主题事实清单表+维度表 封装成一个视图,类 似如下 数 据 展 示 + 多 维 分析 采用开源报表系统davinci 地址: https://github.com/edp963/davinci 03 1. Memory limit (for query) exceeded0 码力 | 14 页 | 3.03 MB | 1 年前3
 Apache ShardingSphere Shadow DB 及在 CyborgFlow 中的应用 - 侯阳com/apache/shardingsphere OpenSEC: https://community.sphere-ex.com 文字 Apache ShardingSphere Overview Shadow DB 应用场景 Shadow DB 架构设计 全链路压测:流量规划,比如双 11,618 等 灰度发布:指定测试用户的体验版本发布 服务预热:预热数据隔离 对比测试:基于版本的对比测试 Shadow 用于存储隔离数据的数据源。 压力测试尽量与生产数据库一 致。 功能测试和灰度测试可以使用 相同数据库。 Shadow Table 影子表 压测业务涉及相关的表我们称 为影子表。压测相关业务场景 需要很多基础信息比如字典表 等,并不会产生压测数据。影 子库只需要创建产生压测数据 的影子表即可。 Shadow Algorithm 影子算法 影子算法是判定执行 SQL 是 否执行到影子库的判定算法。 database-shadow 数据路由 cyborg-database-shadow sw8-correlation: cyborg-flow=true CyborgFlow POC1 文字 直接调用服务应用模拟生产环境调用 调用 cyborg-flow-gateway 网关模拟压测环境调用 CyborgFlow POC2 文字 真实流量的调用链路 压测流量的调用链路 CyborgFlow POC30 码力 | 22 页 | 3.83 MB | 1 年前3 Apache ShardingSphere Shadow DB 及在 CyborgFlow 中的应用 - 侯阳com/apache/shardingsphere OpenSEC: https://community.sphere-ex.com 文字 Apache ShardingSphere Overview Shadow DB 应用场景 Shadow DB 架构设计 全链路压测:流量规划,比如双 11,618 等 灰度发布:指定测试用户的体验版本发布 服务预热:预热数据隔离 对比测试:基于版本的对比测试 Shadow 用于存储隔离数据的数据源。 压力测试尽量与生产数据库一 致。 功能测试和灰度测试可以使用 相同数据库。 Shadow Table 影子表 压测业务涉及相关的表我们称 为影子表。压测相关业务场景 需要很多基础信息比如字典表 等,并不会产生压测数据。影 子库只需要创建产生压测数据 的影子表即可。 Shadow Algorithm 影子算法 影子算法是判定执行 SQL 是 否执行到影子库的判定算法。 database-shadow 数据路由 cyborg-database-shadow sw8-correlation: cyborg-flow=true CyborgFlow POC1 文字 直接调用服务应用模拟生产环境调用 调用 cyborg-flow-gateway 网关模拟压测环境调用 CyborgFlow POC2 文字 真实流量的调用链路 压测流量的调用链路 CyborgFlow POC30 码力 | 22 页 | 3.83 MB | 1 年前3
共 128 条
- 1
- 2
- 3
- 4
- 5
- 6
- 13














