SelectDB案例 从 ClickHouse 到 Apache DorisDoris 的特性,解决了架构 1.0 中较为突出的问题。  数仓层:Apache Doris 的 Aggregate 数据模型可支持部分列实时更新,因此我们去 掉了 DWM 集市层的构建,直接增量到 Doris / ES 中构建宽表,解决了架构 1.0 中 上游数据更新延迟导致整个宽表延迟的问题,进而提升了数据的时效性。数据(指 标、标签等)通过 Spark 统一离线加载到 Kafka 中,使用 数据冗余带来的存储压力,提高查询吞吐量。Doris 具备多表查询和联邦查询性能 特性,可以利用多表关联特性实现组合查询。  应用层:DataSet 统一指向 Doris,Doris 支持外表查询,利用该特性可对 ES 引擎 直接查询。 架构 2.0 存在的问题:  DataSet 灵活度较高,数据分析师可对指标和标签自由组合和定义,但是不同的分 析师对同一数据的定义不尽相同、定义口径不一致,导致指标和标签缺乏统一管理, 换为业务部门更容易理解的概念,目的是将标签 (tag)与指标(metric)变为“一等公民”,作为 数据定义与管理的基本对象。 引入语义层的优势有:  对于技术来说,应用层不再需要创建 DataSet,从语义层可直接获取特定内容对象 的标签集 (tagset)和指标集(metricset) 来发起查询。  对于数据分析师来说,可统一在语义层定义和创建衍生的指标和标签,解决了定义 口径不一致、管理和使用难度较高的问题。0 码力 | 12 页 | 1.55 MB | 1 年前3
 百度智能云 Apache Doris 文档可以使用别名来访问。别名通常相对原名来说更简短更好记。当需要新建一个别名时,只需在select list或者from list中的表、 列、表达式名称后面加上AS alias从句即可。AS关键词是可选的,用户可以直接在原名后面指定别名。如果别名或者其他标志 符和内部关键词同名时,需要在该名称加上``符号。别名对大小写是敏感的。 举例: SQL-手册 Doris提供在线和离线的SQL手册。 在线的SQL 大数据量需要导入,建议分成多个导入任务提交。 Doris 同时会限制集群内同时运行的导入任务数量,通常在 3-10 个不等。之后提交的导入作业会排队等待。队列最大长度 为 100。之后的提交会直接拒绝。注意排队时间也被计算到了作业总时间中。如果超时,则作业会被取消。所以建议通过 监控作业运行状态来合理控制作业提交频率。 BACKUP BACKUP BACKUP Description Description 有两种方式: 1. 指向 FE 的 HTTP 协议端口。这种方式,FE 会直接将请求做 307 转发到随机的一个 BE 节点。最终请求和数据直接和 这个 BE 节点通讯。这种方式需要客户端和 BE 节点的网络能够正常通讯。 2. 指向 BE 的 HTTP 协议端口。则请求直接和 BE 节点交互。 注:百度云 Doris 用户请直接连接 Compute Node 的 HTTP 协议端口即可。 在 URL0 码力 | 203 页 | 1.75 MB | 1 年前3
 Apache Doris 在美团外卖数仓中的应用实践可靠的调度能力:提供5、10、15、30分钟的调度保障能力。 Lambda架构简化:实时数据与离线数据更好的在Doris中进行融合,灵活支撑应用。 高效的OLAP交互 :支撑业务的灵活查询访问,业务层通过视图进行逻辑封装直接复用汇总层多维模型,提高了开 发效率,减少了运维成本。 相比Storm、Flink中的窗口计算,准实时DB微批的优势: Doris引擎在美团的重要改进 Join 谓词下推的传递性优化 如上图所示,对于下面的 Join(Local Join)是和Shuffle Join、Broadcast Join相对的概念,即将两表的数据提前按照Join Key Shard,这样在Join执行时就没有数据网络传输的开销,两表可以直接在本地进行Join。 整个Colocate Join在Doris中实现的关键点如下: 数据导入时保证数据本地性。 查询调度时保证数据本地性。 数据Balance后保证数据本地性。 查询Plan的修改。0 码力 | 8 页 | 429.42 KB | 1 年前3
共 3 条
- 1
 













