高并发 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Apache Doris 在美团外卖数仓中的应用实践

大家会选择MySQL等关系型DB 作为明细数据的快速检索查询，但当业务成长较快时，很快就会遇到性能瓶颈，并且运维成本也很高。例如，大数据量的同步、新增字段、历史数据更新等操作，它们的维护成本都非常高。外卖运营业务特点美团的使命是“帮大家吃得更好，生活更好”。外卖业务为大家提供送餐服务，连接商家与用户，这是一个劳动密集型的业务，外卖业务有上万人的运营团队来服务全国几百万的商家，并以“商圈算与管理成本较高。ROLAP需要强大的关系型DB引擎支撑。长期以来，由于传统关系型DBMS的数据处理能力有限，所以ROLAP模式受到很大的局限性。随着分布式、并行化技术成熟应用，MP P引擎逐渐表现出强大的高吞吐、低时延计算能力，号称“亿级秒开”的引擎不在少数，ROLAP模式可以得到更好的延伸。单从业务实际应用考虑，性能在千万量级关联查询现场计算秒开的情况下，已经可以覆盖到很多应用场景，具备应用的可能擎的核心是通过将数据分散，以实现 CPU、IO、内存资源的分布，来提升并行计算能力。在当前数据存储以磁盘为主的情况下，数据S can需要的较大的磁盘IO，以及并行导致的高CPU，仍然是资源的短板。因此，高频的大规模汇总统计，并发能力将面临较大挑战，这取决于集群硬件方面的并行计算能力。传统去重算法需要大量计算资源，实时的大规模去重指标对CPU、内存都是一个巨大挑战。目前Doris最新版本已经支

0 码力 | 8 页 | 429.42 KB | 1 年前
3
Doris的数据导入机制以及原子性保证

Doris中的导入使用案例 04 Doris简介 01 • 基于MPP（大规模并行处理）架构的分析型数据库 01 Doris简介 • 性能卓越，PB级别数据毫秒/秒级响应 • 适用于高并发、低延时下的多维分析、实时报表等场景 • 由百度自研，2017年开源，2018年贡献给Apache社区后更名为 Apache Doris 系统定位 • 百度内部统称其为“百度数据仓库Palo” 实现高可用 • 正式开始对外提供服务 2015 • 正式开源 • 希望能帮助更多人、让更多人帮助Doris 2017 • 贡献给Apache社区，更名为Apache Doris • 截止目前，社区2000+star， Contributor 100+，一线互联网广泛使用 2018 07 01 Doris简介产品特性简单易用扩展性强性能卓越高可用 • 支持集群动态伸缩 • 高度集成，不依赖于外部存储系统 • 架构优雅，单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询，100台集群可达10w QPS • 流式导入单节点100MB/s，小批量导入毫秒延迟 • 数据、元数据高可用，线上稳定服务6年 • 机器故障副本自动迁移 01 Doris简介 MySQL Tools （MySQL Networking）

0 码力 | 33 页 | 21.95 MB | 1 年前
3
百度智能云 Apache Doris 文档

的列。主要用于导入时保证数据顺序。用于指定例行导入作业的通用参数。目前我们支持以下参数： 1. 期望的并发度。一个例行导入作业会被分成多个子任务执行。这个参数指定一个作业最多有多少任务可以同时执行。必须大于0。默认为3。这个并发度并不是实际的并发度，实际的并发度，会通过集群的节点数、负载情况，以及数据源的情况综合考虑。 2. 这三个参数分别表示： 1. 每个子任务最大执行时间，单位是秒。范围为一个查询计划处理更多的分片，则可以减少作业的执行时间。但如果查询计划出错（比如调用 Broker 的 RPC 失败，远端存储出现抖动等），过多的 Tablet 会导致一个查询计划的重试成本变高。所以需要合理安排查询计划的个数以及每个查询计划所需要扫描的分片数，在执行时间和执行成功率之间做出平衡。一般建议一个查询计划扫描的数据量在 3-5 GB内。内存限制内存限制通常一个 Export "desireTaskConcurrentNum" "desireTaskConcurrentNum":: "1" "1",, // 用户设置的期望最大并发子任务数。 // 用户设置的期望最大并发子任务数。 "maxErrorNum" "maxErrorNum":: "0" "0",,

0 码力 | 203 页 | 1.75 MB | 1 年前
3
SelectDB案例从 ClickHouse 到 Apache Doris

合和定义，但是不同的分析师对同一数据的定义不尽相同、定义口径不一致，导致指标和标签缺乏统一管理， 4 这使得数据管理和使用的难度都变高。  Dataset 与物理位置绑定，应用层无法进行透明优化，如果 Doris 引擎出现负载较高的情况，无法通过降低用户查询避免集群负载过高报错的问题。数据架构 3.0 针对指标和标签定义口径不统一，数据使用和管理难度较高的问题，我们继续对架构进行升版本开始，将支持倒排索引。可进行文本类型的全文检索；支持中文、英文分词；支持文本、数值日期类型的等值和范围过滤；倒排索引对数组类型也提供了支持，多个过滤条件可以任意进行 AND OR NOT 逻辑组合。由于高性能的向量化实现和面向 AP 数据库的精简优化，Doris 的倒排索引相较于 ES 会有 3~5 倍性价比提升，即将在 2 月底发布的 2.0 preview 版本中可用于功能评估和性能测试，相标签上下线，将低价值标签和指标下线处理后，后续数据不再写入，减少写入和存储代价。 2、降低数据链路成本。 Doris 架构非常简单，只有 FE 和 BE 两类进程，不依赖其他组件，并通过一致性协议来保证服务的高可用和数据的高可靠，自动故障修复，运维起来比较容易;  高度兼容 MySQL 语法，支持标准 SQL，极大降低开发人员接入使用成本；  支持多种联邦查询方式，支持对 Hive、MySQL、Elasticsearch

0 码力 | 12 页 | 1.55 MB | 1 年前
3

共 4 条前往

页

Apache Doris 美团 Doris 数据导入机制以及原子保证百度智能 Apache 文档 SelectDB 案例 ClickHouse

分类

语言

格式

Apache Doris 在美团外卖数仓中的应用实践

Doris的数据导入机制以及原子性保证

百度智能云 Apache Doris 文档

SelectDB案例从 ClickHouse 到 Apache Doris

分类

语言

格式

Apache Doris 在美团外卖数仓中的应用实践

Doris的数据导入机制以及原子性保证

百度智能云 Apache Doris 文档

SelectDB案例 从 ClickHouse 到 Apache Doris

SelectDB案例从 ClickHouse 到 Apache Doris