多场景应用 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

ClickHouse在B站海量数据场景的落地实践

ClickHouse在B站海量数据场景的落地实践胡甫旺哔哩哔哩OLAP平台目录 vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点，30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括（不限于）： Ø write-write冲突依靠table level lock控制 v write-merge冲突： Unique Engine v 常驻内存模式对内存消耗很⼤ v ⾮常驻内存模式index load过程慢 v 多并发加载优化索引加载速度：日志日志 v Elastic To ClickHouse迁移，降本增效 v OTEL标准化⽇志采集 v 统⼀scheme⽀持日志 v ClickHouse较ES写⼊吞吐量提升近10倍概述 v 基于ClickHouse构建B站⽤户⾏为数据分析产品：北极星 v 行为数据分析平台主要以下功能模块：事件分析 v 海量埋点事件数据，⽇增数据千亿级。 v ⽤户⾏为事件的多维度分析场景。 v 事件包含公共属性和私有属性，均可作过滤和聚合维度。 v 不同事件有不同的私有属性字段。 v 动态选择的过滤维度和聚合维度。 v 交互式分析延迟要求 (5秒内)。路径分析 v 选定中⼼事件。

0 码力 | 26 页 | 2.15 MB | 1 年前
3
ClickHouse在苏宁用户画像场景的实践

ClickHouse 在苏宁用户画像场景的实践二〇一九年十月苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ，从事大规模分布式系统研发  10+years C++、Java、Go编程经验，熟悉大数据架构、解决方案  ClickHouse 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 2 选择ClickHouse的原因 1. 速度快 2. 特性发布快 3. 软件质量高 4. 物化视图 5. 高基数查询 6. 精确去重计数（count distinct） 3 精确去重计数性能测试 4亿多的数据集上，去重计算出6千万整形数值，非精确去重函 0 10 20 30 40 50 60 时长结论： • 整形值精确去重场景，groupBitmap 比 uniqExact至少快 2x+ • groupBitmap仅支持整形值去重， uniqExact支持任意类型去重。 • 非精确去重场景，uniq在精准度上有优势。 5 0.25 0.46 0.29 0 0 0 0.05

0 码力 | 32 页 | 1.47 MB | 1 年前
3
PostgreSQL WAL日志解析与应用

Postgres Conference China 2016 中国用户大会 PostgreSQL WAL日志解析与应用王硕山东瀚高基础软件股份有限公司 2016Postgres中国用户大会 Postgres Conference China 2016 中国用户大会 CONTENTS Part 01 Part 02 Part 03 WAL 日志简介 • 逻辑复制 • 误操作恢复 2016Postgres中国用户大会 Postgres Conference China 2016 中国用户大会  Logminter • 利用多版本特性，尽可能恢复数据。 • 打开pg_log，查找误操作信息，进行还原。 • 利用pg_xlogdump查看wal日志信息，确定时间点，然后恢复。 2016Postgres中国用户大会

0 码力 | 16 页 | 705.31 KB | 1 年前
3
Cassandra在饿了么的应用

Cassandra在饿了么的应用主讲人：翟玉勇时间：2017.06.11 1.Cassandra的基本原理介绍 2.为什么选择Cassandra 3.饿了么Cassandra实践 4.大数据离线平台和Cassandra的整合概述 Cassandra历史 BigTable Dynamo Cassandra概述 Cassandra最初源自FaceBook，集合了Google BigTable面向列的特 replication = {'class': 'SimpleStrategy', ‘replication_factor' : 3} 2.NetworkTopologyStrategy 用于多IDC场景，可指定每个IDC有多少replicas CREATE KEYSPACE dw WITH replication = {'class': 'NetworkTopologyStrategy', 'DC-SH' 1)类似sql的cql语言，对开发友好，低成本上手 2)DataStax公司提供的强大的java client 3)可调节的数据一致性 4)异步接口 3.适用场景 1)Cassandra自带多idc策略 2)我们的业务需求 Cassandra在饿了么的实践 1.生产应用 1)用户画像 2)历史订单 3)dt.api 2.Client选择 3.运维和监控 4.性能调优 1.5 node 2.2.4亿+用户数据

0 码力 | 40 页 | 4.95 MB | 1 年前
3
孟浩然-Apache ShardingSphere 架构解析&应用实践

Apache ShardingSphere 架构解析与应用实践孟浩然 2021/12/11 01 孟浩然 SphereEx 高级研发工程师 Apache ShardingSphere PMC 曾就职京东科技，负责数据库产品研发，热爱开源，关注数据库生态，目前就职 SphereEx , 专注于 Apache ShardingSphere 分布式数据库中间件研发以及开源社区建设 1 1. Apache ShardingSphere 5.0.0 架构解析 2. 5.0.0 应用实践 3. Database Plus 解决方案目录产品定位 l 构建异构数据库的上层标准和生态 l 提供精准化和差异化的能力产品定位 4.X 5.X 定位分库分表中间件分布式数据库生态系统功能提供基础功能提供基础署架构 l ShardingSphere-JDBC 采用无中心化架构，与应用程序共享资源，适用于 Java 开发的高性能的轻量级 OLTP 应用； l ShardingSphere-Proxy 提供静态入口以及异构语言的支持，独立于应用程序部署，适用于 OLAP 应用以及对分片数据库进行管理和运维的场景。整体架构 l L1 内核层：面向数据库内核，包括数据库事务引擎，查询优

0 码力 | 31 页 | 2.36 MB | 1 年前
3
如何用 MySQL 构建全方位高可用应用

并不仅仅是可靠地存储数据支持高可用性的各个层数据的冗余访问路径数据冗余存储冗余应用服务器数据路由 4/16/2017 版权所有 2015，Oracle 和/或其附属公司。保留所有权利。 6 并不仅仅是可靠地存储数据支持高可用性的各个层数据的冗余访问路径数据冗余存储冗余应用服务器数据路由 4/16/2017 版权所有 2015，Oracle 和/或其附属公司。保留所有权利。 MySQL Cluster 从数据库 • 会话线程：处理来自应用程序的查询－将数据写入主数据库，将关联事件写入二进制日志 • 转储线程：读取二进制日志中的事件，然后将其发送到从数据库 • I/O 线程：接收复制事件，并将其存储在从数据库的中继日志中 • SQL 线程：读取从数据库的中继日志中的复制事件，然后将其应用到从数据库 MySQL 复制工作流会话二进制日志和/或其附属公司。保留所有权利。为何进行复制？ •将数据库从“主服务器”复制到“从服务器” – 数据的冗余副本奠定了高可用性的基础 – 通过在复制场中进行分布式查询来扩展主从 Web/应用服务器写入和读取读取 4/16/2017 版权所有 2015，Oracle 和/或其附属公司。保留所有权利。 9 •异步 – MySQL 默认设置 – 并行：主数据库向应用程序发送确认，在

0 码力 | 40 页 | 2.19 MB | 1 年前
3
[PingCAP Meetup SH 5.26]TiDB在易果集团的应用

4、分析师可以在TiDB⾥里里⾯面做数据探索，数据分析架构 TiDB⽬目前应⽤用现状现状接⼝口平台 TiDB接⼊入的数据对外提供数据接⼝口服务开发成本：天级别 � ⼩小时级别数据中台接⼊入更更多业务 TP向业务使⽤用TiDB 统⼀一的流式/近实时数据抽取，加⼯工调度平台更更加明确TiDB和TiSpark引擎的选择未来规划凡是过往，皆为序章 Thank you!

0 码力 | 12 页 | 585.78 KB | 6 月前
3
Apache Doris 在美团外卖数仓中的应用实践

Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com Apache Doris在美团外卖数仓中的应用实践序言美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析，由于外卖业务特点带来的数据生产成本较高和查询效率偏低的问题，他们通过引入Apache Doris引擎优化生产方案，实现了低成本生产与高效查询的平衡。并以此分析不同业务场景下，基于Kylin的MOLAP模式与基于种数据引擎百花齐放，但由于业务的复杂性与多样性，目前并没有哪个引擎能够适配所有业务场景，因此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数据应用效率最大化，同时兼顾研发、生产与运维成本的最小化，建设持续进步的数仓能力，也欢迎大家多给我们提出建议。数仓交互层引擎的应用现状目前，互联网业务规模变得越来越大，不论是业务生产系统还是日志系统，基本上都是基于Hado 数据进行适当的分层、加工、管理。而在数据应用交互层面，由于时效性的要求，数据最终的展现查询还是需要通过DBMS（MySQL）、MOLAP（Kylin）引擎来进行支撑。如下图所示：如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop 汇总数据的交互业务团队日常经营分析最典型的场景就是各种维度下的自定义查询，面对如此灵活可变、所见即

0 码力 | 8 页 | 429.42 KB | 1 年前
3
数仓ClickHouse多维分析应用实践-朱元

clickhouse数仓应用实践演讲人：朱元日期： 2019-10-20 所遇问题目录 CONTENTS 现状背景应用实践 01 数据链路长现状即席查询性能差数据压缩率低需求响应慢 02 数据架构数据同步ck 01 1，基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本因此采用可视化同步工具kettle. 先将oracle数据平台维主题事实清单表采用引擎MergeTree. 同步策略: 每日从 oracle数据平台增量同步到ck数仓. 数仓建设 – 对外数据目前对外开放是主题事实清单表+维度表封装成一个视图,类似如下数据展示 + 多维分析采用开源报表系统davinci 地址: https://github.com/edp963/davinci 03 1. Memory limit (for query) exceeded

0 码力 | 14 页 | 3.03 MB | 1 年前
3
Apache ShardingSphere Shadow DB 及在 CyborgFlow 中的应用 - 侯阳

com/apache/shardingsphere OpenSEC: https://community.sphere-ex.com 文字 Apache ShardingSphere Overview Shadow DB 应用场景 Shadow DB 架构设计全链路压测：流量规划，比如双 11，618 等灰度发布：指定测试用户的体验版本发布服务预热：预热数据隔离对比测试：基于版本的对比测试 Shadow 用于存储隔离数据的数据源。压力测试尽量与生产数据库一致。功能测试和灰度测试可以使用相同数据库。 Shadow Table 影子表压测业务涉及相关的表我们称为影子表。压测相关业务场景需要很多基础信息比如字典表等，并不会产生压测数据。影子库只需要创建产生压测数据的影子表即可。 Shadow Algorithm 影子算法影子算法是判定执行 SQL 是否执行到影子库的判定算法。 database-shadow 数据路由 cyborg-database-shadow sw8-correlation: cyborg-flow=true CyborgFlow POC1 文字直接调用服务应用模拟生产环境调用调用 cyborg-flow-gateway 网关模拟压测环境调用 CyborgFlow POC2 文字真实流量的调用链路压测流量的调用链路 CyborgFlow POC3

0 码力 | 22 页 | 3.83 MB | 1 年前
3

共 128 条前往

页

分类

语言

格式

ClickHouse在B站海量数据场景的落地实践

ClickHouse在苏宁用户画像场景的实践

PostgreSQL WAL日志解析与应用

Cassandra在饿了么的应用

孟浩然-Apache ShardingSphere 架构解析&应用实践

如何用 MySQL 构建全方位高可用应用

[PingCAP Meetup SH 5.26]TiDB在易果集团的应用

Apache Doris 在美团外卖数仓中的应用实践

数仓ClickHouse多维分析应用实践-朱元

Apache ShardingSphere Shadow DB 及在 CyborgFlow 中的应用 - 侯阳