 Doris的数据导入机制以及原子性保证接公司内部其他报表系统 • 助力百度统计成为国内最大 的中文网站分析工具 2009 • 随百度业务飞速发展,对 Doris的性能、可用性、拓 展性进行了全面升级 • 承担百度所有统计报表业务 2012 01 Doris简介 04 05 06 • 全新的数据模型,查询存储 效率大幅提升 • MPP框架,支持分布式计算 2013 • 精简架构、统一用户客户端, 实现高可用 • 正式开始对外提供服务 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析 业务应用 实时大屏 多维报表 自助查询 用户画像 Doris 02 导入的问题 Vn Vn Vn Vn V1-Vn-1 02 导入的问题 • 部分数据丢失,产生脏数据 • 数据重复0 码力 | 33 页 | 21.95 MB | 1 年前3 Doris的数据导入机制以及原子性保证接公司内部其他报表系统 • 助力百度统计成为国内最大 的中文网站分析工具 2009 • 随百度业务飞速发展,对 Doris的性能、可用性、拓 展性进行了全面升级 • 承担百度所有统计报表业务 2012 01 Doris简介 04 05 06 • 全新的数据模型,查询存储 效率大幅提升 • MPP框架,支持分布式计算 2013 • 精简架构、统一用户客户端, 实现高可用 • 正式开始对外提供服务 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析 业务应用 实时大屏 多维报表 自助查询 用户画像 Doris 02 导入的问题 Vn Vn Vn Vn V1-Vn-1 02 导入的问题 • 部分数据丢失,产生脏数据 • 数据重复0 码力 | 33 页 | 21.95 MB | 1 年前3
 SelectDB案例 从 ClickHouse 到 Apache DorisDoris,腾讯音乐内容库数据平台架构演进实践 2023/02/20SelectDB 用户案例 导读:腾讯音乐内容库数据平台旨在为应用层提供库存盘点、分群画像、指标分析、标签圈 选等内容分析服务,高效为业务赋能。目前,内容库数据平台的数据架构已经从 1.0 演进到 了 4.0 ,经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层 的初步引入到深度应用,有 歌,总月活用 户数超过 8 亿。 业务需求 腾讯音乐娱乐拥有海量的内容曲库,包括录制音乐、现场音乐、音频和视频等多种形式。通 过技术和数据的赋能,腾讯音乐娱乐持续创新产品,为用户带来更好的产品体验,提高用户 参与度,也为音乐人和合作伙伴在音乐的制作、发行和销售方面提供更大的支持。 在业务运营过程中我们需要对包括歌曲、词曲、专辑、艺人在内的内容对象进行全方位分析, 高效为业务赋能,内容库数据平台旨在集成 ,整合形成内容数据资产(以指 标和标签体系为载体),为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分 析服务。 数据架构演进 TDW 是腾讯最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖 掘等的存储和计算都是在 TDW 中进行,内容库数据平台的数据加工链路同样是在腾讯数据 仓库 TDW 上构建的。截止目前,内容库数据平台的数据架构已经从 1.0 演进到了0 码力 | 12 页 | 1.55 MB | 1 年前3 SelectDB案例 从 ClickHouse 到 Apache DorisDoris,腾讯音乐内容库数据平台架构演进实践 2023/02/20SelectDB 用户案例 导读:腾讯音乐内容库数据平台旨在为应用层提供库存盘点、分群画像、指标分析、标签圈 选等内容分析服务,高效为业务赋能。目前,内容库数据平台的数据架构已经从 1.0 演进到 了 4.0 ,经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层 的初步引入到深度应用,有 歌,总月活用 户数超过 8 亿。 业务需求 腾讯音乐娱乐拥有海量的内容曲库,包括录制音乐、现场音乐、音频和视频等多种形式。通 过技术和数据的赋能,腾讯音乐娱乐持续创新产品,为用户带来更好的产品体验,提高用户 参与度,也为音乐人和合作伙伴在音乐的制作、发行和销售方面提供更大的支持。 在业务运营过程中我们需要对包括歌曲、词曲、专辑、艺人在内的内容对象进行全方位分析, 高效为业务赋能,内容库数据平台旨在集成 ,整合形成内容数据资产(以指 标和标签体系为载体),为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分 析服务。 数据架构演进 TDW 是腾讯最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖 掘等的存储和计算都是在 TDW 中进行,内容库数据平台的数据加工链路同样是在腾讯数据 仓库 TDW 上构建的。截止目前,内容库数据平台的数据架构已经从 1.0 演进到了0 码力 | 12 页 | 1.55 MB | 1 年前3
 Apache Doris 在美团外卖数仓中的应用实践Apache Doris在美团外卖数仓中的应用实践 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来 的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于 Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 各种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数 据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado 、MOLAP(Kylin)引擎来进行支撑。如下图所示: 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 汇总数据的交互 业务团队日常经营分析最典型的场景就是各种维度下的自定义查询,面对如此灵活可变、所见即 1 / 8 Apache Doris在美团外卖数仓中的应用实践0 码力 | 8 页 | 429.42 KB | 1 年前3 Apache Doris 在美团外卖数仓中的应用实践Apache Doris在美团外卖数仓中的应用实践 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来 的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于 Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 各种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数 据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado 、MOLAP(Kylin)引擎来进行支撑。如下图所示: 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 汇总数据的交互 业务团队日常经营分析最典型的场景就是各种维度下的自定义查询,面对如此灵活可变、所见即 1 / 8 Apache Doris在美团外卖数仓中的应用实践0 码力 | 8 页 | 429.42 KB | 1 年前3
 百度智能云 Apache Doris 文档操作中的查询部分时,必须指定 和 部分。 4. 过滤阈值 与其他导入方式不同,INSERT 操作不能指定过滤阈值( )。默认的过滤阈值为 1,即素有错误行都可以被 忽略。 对于有要求数据不能够被过滤的业务场景,可以通过设置 会话变量 为 来确保当有数据被过滤掉的 时候, 不会被执行成功。 5. 性能问题 不见使用 方式进行单行的插入。如果必须这样使用,请将多行数据合并到一个 INSERT 的节点的最大连接数限制。默认是100。如果集群有 3 个 Leader Node,则理论 上最大连接数为 300。 Doris 集群还有总连接数上限。默认为 1024。即所有用户的连接数量不得超过这个上线。 如果是高并发应用,建议业务侧通过线程池进行连接并复用这些连接。通常默认的连接数限制能够满足上千 QPS 的高并发 访问场景。 REVOKE REVOKE REVOKE Description Description 用于撤销指定用户或角色指定的权限。 使用子查询将数据进行聚合后,在再外层通过 求交集: Keywords Keywords INTERSECT_COUNT Description Description 功能: 该函数通常用于计算留存等业务场景。第一个参数为要进行留存计算的 bitmap 列。第二个参数为需要进行交集计算的列 名。之后的变长参数为第二个参数对应列的一组取值。 该函数类似一个语法糖,相当于组合了以下函数: +0 码力 | 203 页 | 1.75 MB | 1 年前3 百度智能云 Apache Doris 文档操作中的查询部分时,必须指定 和 部分。 4. 过滤阈值 与其他导入方式不同,INSERT 操作不能指定过滤阈值( )。默认的过滤阈值为 1,即素有错误行都可以被 忽略。 对于有要求数据不能够被过滤的业务场景,可以通过设置 会话变量 为 来确保当有数据被过滤掉的 时候, 不会被执行成功。 5. 性能问题 不见使用 方式进行单行的插入。如果必须这样使用,请将多行数据合并到一个 INSERT 的节点的最大连接数限制。默认是100。如果集群有 3 个 Leader Node,则理论 上最大连接数为 300。 Doris 集群还有总连接数上限。默认为 1024。即所有用户的连接数量不得超过这个上线。 如果是高并发应用,建议业务侧通过线程池进行连接并复用这些连接。通常默认的连接数限制能够满足上千 QPS 的高并发 访问场景。 REVOKE REVOKE REVOKE Description Description 用于撤销指定用户或角色指定的权限。 使用子查询将数据进行聚合后,在再外层通过 求交集: Keywords Keywords INTERSECT_COUNT Description Description 功能: 该函数通常用于计算留存等业务场景。第一个参数为要进行留存计算的 bitmap 列。第二个参数为需要进行交集计算的列 名。之后的变长参数为第二个参数对应列的一组取值。 该函数类似一个语法糖,相当于组合了以下函数: +0 码力 | 203 页 | 1.75 MB | 1 年前3
共 4 条
- 1













