SelectDB案例 从 ClickHouse 到 Apache Doris2023/02/20SelectDB 用户案例 导读:腾讯音乐内容库数据平台旨在为应用层提供库存盘点、分群画像、指标分析、标签圈 选等内容分析服务,高效为业务赋能。目前,内容库数据平台的数据架构已经从 1.0 演进到 了 4.0 ,经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层 的初步引入到深度应用,有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等 在业务运营过程中我们需要对包括歌曲、词曲、专辑、艺人在内的内容对象进行全方位分析, 高效为业务赋能,内容库数据平台旨在集成各数据源的数据,整合形成内容数据资产(以指 标和标签体系为载体),为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分 析服务。 数据架构演进 TDW 是腾讯最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖 掘等的存储和计算都是在 TDW 的替换、经历了数据架构语义层的初步引 入到深度应用,有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等问题,收 益显著。接下来将为大家分享腾讯音乐内容库数据平台的数据架构演进历程与实践思考。 数据架构 1.0 2 如图所示为数据架构 1.0 架构图,分为数仓层、加速层、应用层三部分,数据架构 1.0 是 一个相对主流的架构,简单介绍一下各层的作用及工作原理: 数仓层:通过 ODS-DWD-DWS0 码力 | 12 页 | 1.55 MB | 1 年前3
Mybatis 框架课程第二天 Php、网页平面设计工程师的培训 北京市昌平区建材城西路金燕龙办公楼一层 电话:400-618-9090 Mybatis 框架课程第二天 第1章 回顾 1.1 自定义流程再分析 传智播客——专注于 Java、.Net 和 Php、网页平面设计工程师的培训 北京市昌平区建材城西路金燕龙办公楼一层 电话:400-618-9090 1.2 mybatis 环境搭建步骤 第三步:编写必要代码(实体类和持久层接口) 第四步:编写 SqlMapConfig.xml 第五步:编写映射配置文件 第六步:编写测试类 第2章 基于代理 Dao 实现 CRUD 操作 使用要求: 1、持久层接口和持久层接口的映射配置必须在相同的包下 2、持久层映射配置中 mapper 标签的 namespace 属性取值必须是持久层接口的全限定类名 3、SQL 3、SQL 语句的配置标签0 码力 | 27 页 | 1.21 MB | 1 年前3
如何用 MySQL 构建全方位高可用应用2015,Oracle 和/或其附属公司。保留所有权利。 5 并不仅仅是可靠地存储数据 支持高可用性的各个层 数据的冗余访问路径 数据冗余存储 冗余应用服务器 数据路由 4/16/2017 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 6 并不仅仅是可靠地存储数据 支持高可用性的各个层 数据的冗余访问路径 数据冗余存储 冗余应用服务器 数据路由 4/16/2017 版权所有 可用来密切监视数据库。” -Wes Homer, 高级系统和网络管理员 4/16/2017 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 13 并不仅仅是可靠地存储数据 支持高可用性的各个层 数据的冗余访问路径 数据冗余存储 冗余应用服务器 数据路由 4/16/2017 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 14 • MySQL Replication 4/16/2017 在 Oracle Clusterware 上部署 MySQL 17 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 并不仅仅是可靠地存储数据 支持高可用性的各个层 数据的冗余访问路径 数据冗余存储 冗余应用服务器 数据路由 4/16/2017 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 18 • MySQL Replication0 码力 | 40 页 | 2.19 MB | 1 年前3
分布式NewSQL数据库TiDB处理、实时数据分析,极⼤地节省企业的成本。 数据汇聚、⼆次加⼯处理的场景 数据汇聚、⼆次加⼯处理的场景 当前绝⼤部分企业的业务数据都分散在不同的系统中,没有⼀个统⼀的汇总,随着业务的发展,企业的决策层需要了解整个公司的业务状况以便及时做出决策,故需要将分散在各个系统的 数据汇聚在同⼀个系统并进⾏⼆次加⼯处理⽣成 T+0 或 T+1 的报表。传统常⻅的解决⽅案是采⽤ ETL + Hadoop 来完成,但 TiDB(计算层) 免费 免费 PD(控制层) 免费 免费 TiKV(存储层) 0.2 0.24 可选组件 可选组件 华北⼀ 华北⼀/华北⼆ 华北⼆/上海⼆ 上海⼆/⼴州 ⼴州 ⾹港 ⾹港/拉各斯 拉各斯 TiFlash(分析型存储层)0.2 0.24 计费 分布式NewSQL数据库 TiDB Copyright © 2012-2021 UCloud 优刻得 25/120 Pump (⽇志存储层) 0.2 2 0.24 Drainer(⽇志同步层) 0.2 0.24 CDC(⽇志同步层) 0.2 0.24 2. 硬盘 硬盘 单位(元/GB/⼩时) 基础组件 基础组件 华北⼀ 华北⼀/华北⼆ 华北⼆/上海⼆ 上海⼆/⼴州 ⼴州 ⾹港 ⾹港 拉各斯 拉各斯 TiDB(计算层) 免费 免费 免费 PD(控制层) 免费 免费 免费 TiKV(存储层) 0.004 0.005 0.007 可选组件 可选组件 华北⼀0 码力 | 120 页 | 7.42 MB | 6 月前3
云原生虚拟数仓PieCloudDB Database产品白皮书PieCloudDB 整体架构分为三个层次,包括基础设施层、数据处理层及数据应用层。详细阐述如下: 基础设施层 基础设施层为 PieCloudDB 提供计算资源、存储资源和网络资源,PieCloudDB 支持部署在物理服务器、虚拟机以及容 器中,同时也提供 PieCloudDB 公有云 SaaS 服务。 数据处理层 PieCloudDB 核心服务层,提供了并行数据处理能力,拥有元数据节点 PieCloudDB 集群管控节点,提供数据洞察和集群运维等功能,支持可视化的 数据分析、性能监控、集群启停、自动化部署以及权限管控等能力; 数据应用层: 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析,提供标准的 SQL 接口,且内置各种分析工 具,并原生兼容 Postgres 生态,可以很好地处理地理信息数据和文本,未来会扩展其他 户可以灵活考虑业务和数据量的变化, 动态调整 PieCloudDB 集群中计算节点的数量和虚拟数仓的数量,用最适合的资源量来满足其业务需求。 PieCloudDB 实现了元数据、计算、存储等三层架构,计算节点不存储用户数据,是无状态的。当计算节点发生故障 时,PieCloudDB 会自动快速发现并调度新的节点替代故障节点,同时也会在后台尝试修复故障节点,从而保证 PieCloudDB 服务的高可用性。0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB Database 产品白皮书 pieCloudDB 整体架构分为三个层次,包括基础设施层、数据处理层及数据应用层。详细阐述如下: 基础设施层为 pieCloudDB 提供计算资源、存储资源和网络资源,PieCloudDB 支持部署在物理服务器、庶拟机以及容 器中,同时也提供 PieCloudDB 公有云 Saa5 服务。 * ”数据处理层 PieCloudDB 核心服务层,提供了并行数据处理能力,拥有元数据节点、计算节点、存储节点以及云原生平台节点等 务和数据量的变化,, 动态油整 pieCloudDB 集群中计算节点的数量和虚拟数仓的数量,用最适合的资源量来满足其业务需求。 ,。 高可用能力 pieCloudDB 实现了元数据、计算、存储等三层架构,计算节点不存储用户数据,是无状态的。当计算节点发生故障 时,PieCloudDB 会自动快速发现并调度新的节点蔡代故障节点,同时也会在后台尝试修复故障节点,从而保证 PieCloudDB 服务的高可用性。 足业务的隔离性和安全性需求。 * 多级缓存技术 在 PieCloudDB 的计算层,各个计算节点针对元数据和用户数据都设计了多层缓存结构。其中,元数据作为数据库系 统中最重要的特征信息,实现高速的元数据访问是提高数据库查询性能的有效途径。为了避免网络延迟,加速查询优 化,PieCloudDB8 实现了元数据层全新的缓存架构,有效减少了访问元数据服务器带来的网络通信开销和元数据服务 1 Openpie0 码力 | 17 页 | 2.68 MB | 1 年前3
πDataCS赋能工业软件创新与实践reserved. OpenPie Confidential P i e C l o u d D B 技 术 突 破 : 数 仓 虚 拟 化 云原⽣存算分离架构 运用元数据-计算-数据分离的三层架构,实现云上存储资源与 计算资源的独立管理。云上计算资源可弹性分配,有查询计 算任务的时候按需启动,按照使用时间和规模计算成本。 eMPP分布式专利技术 在云上,PieCloudDB利用eMPP(elastic Processing)架构,实现多集群并发执⾏任务。企业可灵活 进⾏扩缩容,随着负载的变化实现⾼效的伸缩,轻松应对 PB级海量数据。 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免⽹络延迟和数据移动,提⾼计算效率,保 证用户的实时性需求。PieCloudDB针对底层对象存储设计了 ⾼效的⽂件格式,可在节省⽹络请求的同时提⾼计算效率。 All rights reserved. OpenPie Confidential 分布式设计,保证可靠性 计算层: Ø eMPP:根据计算任务智能调度合适的资源,将⼀个单⼀计算 任务在⼤量独立的计算机上并⾏执⾏。 Ø 多租户,资源隔离。 Ø 弹性伸缩,支持多集群协同。 存储层: Ø 存算分离,存储独立扩展。 Ø ⾼可靠,支持跨多数据中⼼的灾备复制。 Ø 节约成本,全局数据唯⼀存储,通过共享存储来实现数据共0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB 的云原生之路IvorySQL开源数据库社区 • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难(后期升级部署困难) • 木桶效应 • 大量数据孤岛问题 计算层 存储层 MPP: Massive Parallel Processing eMPP : elastic Massive Parallel Processing 传统 PC 时代数据库 PieCloudDB 创 新 的 核 心 技 术 出 色 的 数 仓 成 本 效 益 IvorySQL开源数据库社区 PieCloudDB 技术突破:数仓虚拟化 云原生存算分离架构 运用元数据-计算-数据分离的三层架构,实现云上存储资源 与计算资源的独立管理。云上计算资源可弹性分配,有查询 计算任务的时候按需启动,按照使用时间和规模计算成本。 eMPP 分布式专利技术 在云上,PieCloudDB 利用 Processing)架构,实现多集群并发执行任务。企 业可灵活进行扩缩容,随着负载的变化实现高效的伸缩, 轻松应对 PB 级海量数据。 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免网络延迟和数据移动,提高计算效率,保 证用户的实时性需求。PieCloudDB 针对底层对象存储设计了 高效的文件格式,可在节省网络请求的同时提高计算效率。0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路OpenPie Confidential • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难(后期升级部署困难) • 木桶效应 • 大量数据孤岛问题 计算层 存储层 MPP: Massive Parallel Processing eMPP : elastic Massive Parallel Processing 传 统 P C 时 代 数 据 库 PieCloudDB云原生时代数据库 OpenPie. All rights reserved. OpenPie Confidential Pi e Cl oudDB技术突破:数仓虚拟化 云原生存算分离架构 运用元数据-计算-数据分离的三层架构,实现云上存储资源与 计算资源的独⽴管理。云上计算资源可弹性分配,有查询计 算任务的时候按需启动,按照使⽤时间和规模计算成本。 eMPP分布式专利技术 在云上,PieCloudDB利⽤eMPP(elastic Processing)架构,实现多集群并发执行任务。企业可灵活 进⾏扩缩容,随着负载的变化实现⾼效的伸缩,轻松应对 PB级海量数据。 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免⽹络延迟和数据移动,提⾼计算效率,保 证⽤户的实时性需求。PieCloudDB针对底层对象存储设计了 高效的文件格式,可在节省⽹络请求的同时提⾼计算效率。0 码力 | 44 页 | 1.64 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数 据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado op/Spark分布式大数据技术生态来构建数据仓库,然后对数据进行适当的分层、加工、管理。而 Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com 下图是MOLAP模式与ROLAP模式下应用方案的比较: MOLAP模式的劣势 1. 应用层模型复杂,根据业务需要以及Kylin生产需要,还要做较多模型预处理。这样在不同 的业务场景中,模型的利用率也比较低。 2. Kylin配置过程繁琐,需要配置模型设计,并配合适当的“剪枝”策略,以实现计算成本与查 要同步到 DBMS引擎来响应交互,增加了生产的运维成本。 4. 较多的预处理伴随着较高的生产成本。 ROLAP模式的优势 1. 应用层模型设计简化,将数据固定在一个稳定的数据粒度即可。比如商家粒度的星形模型 ,同时复用率也比较高。 2. App层的业务表达可以通过视图进行封装,减少了数据冗余,同时提高了应用的灵活性, 降低了运维成本。 3. 同时支持“汇总+明细”。 4. 模型轻量标准化,极大的降低了生产成本。0 码力 | 8 页 | 429.42 KB | 1 年前3
共 64 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













