 并行不悖- OLAP 在互联网公司的实践与思考1 并行不悖 – OLAP 在互联网公司的实践与思考 赵飞祥 2 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 Ø事务大,频率相对小,并发低 • 未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP0 码力 | 43 页 | 9.66 MB | 1 年前3 并行不悖- OLAP 在互联网公司的实践与思考1 并行不悖 – OLAP 在互联网公司的实践与思考 赵飞祥 2 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 Ø事务大,频率相对小,并发低 • 未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP0 码力 | 43 页 | 9.66 MB | 1 年前3
 Greenplum 6: 混合负载的理想数据平台Node1 Segment Host Node2 Segment Host Node3 Segment Host NodeN Greenplum (MPP) Oracle (SMP) OLAP - Online Analytical Processing - 联机分析处理 Gartner 2019数据分析行业报告 Pivotal Greenplum scored highly this here as an MPP relational database are well-showcased 12 Pivotal Confidential–Internal Use Only 卓越的OLAP特性 列式存储 分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 混合事务/分析处理 Gartner技术成熟度曲线 OLTP-OLAP独立部署 OLTP数据库 OLAP数据仓库 ■ 实时性 ■ 数据同步复杂性 ■ 应用复杂性 HTAP HTAP = ? ■ 卓越的OLAP特性 ■ 出色的OLTP特性 ■ 多态存储 ■ 有效的并发和资源管理 OLTP-OLAP独立部署 OLTP数据库 OLAP数据仓库 ■ 实时性 ■ 数据同步复杂性 ■ 应用复杂性0 码力 | 52 页 | 4.48 MB | 1 年前3 Greenplum 6: 混合负载的理想数据平台Node1 Segment Host Node2 Segment Host Node3 Segment Host NodeN Greenplum (MPP) Oracle (SMP) OLAP - Online Analytical Processing - 联机分析处理 Gartner 2019数据分析行业报告 Pivotal Greenplum scored highly this here as an MPP relational database are well-showcased 12 Pivotal Confidential–Internal Use Only 卓越的OLAP特性 列式存储 分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 混合事务/分析处理 Gartner技术成熟度曲线 OLTP-OLAP独立部署 OLTP数据库 OLAP数据仓库 ■ 实时性 ■ 数据同步复杂性 ■ 应用复杂性 HTAP HTAP = ? ■ 卓越的OLAP特性 ■ 出色的OLTP特性 ■ 多态存储 ■ 有效的并发和资源管理 OLTP-OLAP独立部署 OLTP数据库 OLAP数据仓库 ■ 实时性 ■ 数据同步复杂性 ■ 应用复杂性0 码力 | 52 页 | 4.48 MB | 1 年前3
 TiDB 开源分布式关系型数据库OLTP 交易几乎没有影响。提供和 TiDB 保持强一致 的数据读取,是真正的内核级 HTAP 分布式混合负载数据处理平台。 这套系统可以很好的解决: 行存储和列存储的取舍问题; OLTP 负载和 OLAP 负载的资源隔离问题; 快速批量写与事务型写操作混合模式的问题; Adhoc 查询与 Adhoc 混合负载及批处理作业共存的问题; 。 数据 0ffload 到数据仓库引起的不一致风险。 Sattayer 分布式存储引擎 YY 1 集群调度器 TiSpark OLAP 分析引擎 2 人折3合 Tash 分布式下式 7 “ 存储引擎 异地灾备 (主从集群异步模式) OLTP 与 OLAP 业务,支撑 2019 年双十一大促,QPS 峰值在 12 万 +,支持 百亿级的播入和更新。Prometheus 与 Grafana 提供丰富的监控指标满足运维管理的需求,使用DataX 将 TiDB 的数据以 T+1 同步到 Hive 做数据备份。 基于TiDB 中通快递进行实时数仓宽表的建设,业务的 OLTP 数据通过 TiDB 实时写入,后续 OLAP 的业 务通过0 码力 | 58 页 | 9.51 MB | 1 年前3 TiDB 开源分布式关系型数据库OLTP 交易几乎没有影响。提供和 TiDB 保持强一致 的数据读取,是真正的内核级 HTAP 分布式混合负载数据处理平台。 这套系统可以很好的解决: 行存储和列存储的取舍问题; OLTP 负载和 OLAP 负载的资源隔离问题; 快速批量写与事务型写操作混合模式的问题; Adhoc 查询与 Adhoc 混合负载及批处理作业共存的问题; 。 数据 0ffload 到数据仓库引起的不一致风险。 Sattayer 分布式存储引擎 YY 1 集群调度器 TiSpark OLAP 分析引擎 2 人折3合 Tash 分布式下式 7 “ 存储引擎 异地灾备 (主从集群异步模式) OLTP 与 OLAP 业务,支撑 2019 年双十一大促,QPS 峰值在 12 万 +,支持 百亿级的播入和更新。Prometheus 与 Grafana 提供丰富的监控指标满足运维管理的需求,使用DataX 将 TiDB 的数据以 T+1 同步到 Hive 做数据备份。 基于TiDB 中通快递进行实时数仓宽表的建设,业务的 OLTP 数据通过 TiDB 实时写入,后续 OLAP 的业 务通过0 码力 | 58 页 | 9.51 MB | 1 年前3
 TiDB 实践 HTAP 的架构进展和未来展望-韦万and the improvement in v6.2 Wei Wan @ PingCAP About Me Wei Wan, work at PingCAP, as the leader of OLAP Storage team. Over 11 years of experience in game, e-commerce, mobile apps, and database development provide users with a one-stop database solution that covers OLTP (Online Transactional Processing), OLAP (Online Analytical Processing), and HTAP services. Agenda 1. A typical user case 2. The challenges infrastructure adaption The challenges to storage module on HTAP scenario Isolation between OLTP and OLAP workloads • Isolation is difficult if we mix them in the same node • TP and AP scale separately0 码力 | 32 页 | 6.61 MB | 1 年前3 TiDB 实践 HTAP 的架构进展和未来展望-韦万and the improvement in v6.2 Wei Wan @ PingCAP About Me Wei Wan, work at PingCAP, as the leader of OLAP Storage team. Over 11 years of experience in game, e-commerce, mobile apps, and database development provide users with a one-stop database solution that covers OLTP (Online Transactional Processing), OLAP (Online Analytical Processing), and HTAP services. Agenda 1. A typical user case 2. The challenges infrastructure adaption The challenges to storage module on HTAP scenario Isolation between OLTP and OLAP workloads • Isolation is difficult if we mix them in the same node • TP and AP scale separately0 码力 | 32 页 | 6.61 MB | 1 年前3
 Greenplum开源MPP数据库介绍7 Confidential │ ©2022 VMware, Inc. 3 Greenplum简介:什么是Greenplum? 基于PostgreSQL、开源、分布式MPP、ACID完备、为OLAP优化的关系型数据仓库。 https://greenplum.org https://github.com/greenplum-db/gpdb Confidential │ ©2022 VMware (WAL replication) Ø 自动灾难恢复 (FTS,主备切换) Confidential │ ©2022 VMware, Inc. 9 分布式优化器:OLAP Ø OLTP系统的SQL语句相对简单(CURD) Ø OLAP系统的SQL语句就复杂得多(OLTP则尽量避免) q Join 很复杂(多表, outer join, lateral…) q 子查询、子链接 q 聚集 (grouping 优化器非常非常重要 Ø 基于规则优化和基于代价优化 Confidential │ ©2022 VMware, Inc. 10 ORCA Ø 历时十年,独立开发 Ø Cascades 架构 Ø OLAP性能很棒 Ø https://db.cs.cmu.edu/events/vaccination-2022-orca-a-modular-query-optimizer- architectur0 码力 | 23 页 | 4.55 MB | 1 年前3 Greenplum开源MPP数据库介绍7 Confidential │ ©2022 VMware, Inc. 3 Greenplum简介:什么是Greenplum? 基于PostgreSQL、开源、分布式MPP、ACID完备、为OLAP优化的关系型数据仓库。 https://greenplum.org https://github.com/greenplum-db/gpdb Confidential │ ©2022 VMware (WAL replication) Ø 自动灾难恢复 (FTS,主备切换) Confidential │ ©2022 VMware, Inc. 9 分布式优化器:OLAP Ø OLTP系统的SQL语句相对简单(CURD) Ø OLAP系统的SQL语句就复杂得多(OLTP则尽量避免) q Join 很复杂(多表, outer join, lateral…) q 子查询、子链接 q 聚集 (grouping 优化器非常非常重要 Ø 基于规则优化和基于代价优化 Confidential │ ©2022 VMware, Inc. 10 ORCA Ø 历时十年,独立开发 Ø Cascades 架构 Ø OLAP性能很棒 Ø https://db.cs.cmu.edu/events/vaccination-2022-orca-a-modular-query-optimizer- architectur0 码力 | 23 页 | 4.55 MB | 1 年前3
 Greenplum 精粹文集且不管这是不是自我标榜, 就从 OLAP 分析型方面来考察,以下几点 Postgresql 确实胜出一筹。 Big Date2.indd 4 16-11-22 下午3:38 Greenplum 精粹文集 5 1) PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法 支持,除对 ANSI SQL 完全支持外,还支持比如分析函数(SQL2003 OLAP window 函数),还可以用多种语言来写存储过程,对于 的支持方面,Mysql 只支持最后一种 nestloop join(据说未来会支持 hash join),而多个大表关联分析时 hash join 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 全文检索都 是通过这种方式实现功能扩展的。 4) 在诸如 ACID 事物处理、数据强一致性保证、数据类型支持、独特 的 MVCC 带来高效数据更新能力等还有很多方面,Postgresql 似 乎在这些 OLAP 功能上都比 mysql 更甚一筹。 5) Postgresql 许可是仿照 BSD 许可模式的,没有被大公司控制,社区 比较纯洁,版本和路线控制非常好,基于 Postgresql 可让用户拥有0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集且不管这是不是自我标榜, 就从 OLAP 分析型方面来考察,以下几点 Postgresql 确实胜出一筹。 Big Date2.indd 4 16-11-22 下午3:38 Greenplum 精粹文集 5 1) PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法 支持,除对 ANSI SQL 完全支持外,还支持比如分析函数(SQL2003 OLAP window 函数),还可以用多种语言来写存储过程,对于 的支持方面,Mysql 只支持最后一种 nestloop join(据说未来会支持 hash join),而多个大表关联分析时 hash join 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 全文检索都 是通过这种方式实现功能扩展的。 4) 在诸如 ACID 事物处理、数据强一致性保证、数据类型支持、独特 的 MVCC 带来高效数据更新能力等还有很多方面,Postgresql 似 乎在这些 OLAP 功能上都比 mysql 更甚一筹。 5) Postgresql 许可是仿照 BSD 许可模式的,没有被大公司控制,社区 比较纯洁,版本和路线控制非常好,基于 Postgresql 可让用户拥有0 码力 | 64 页 | 2.73 MB | 1 年前3
 云原生数据库 PieCloudDB eMPP架构设计与实现计算优化(各种功能特性持续优化中) • 很多复杂OLAP查询如果不是IO瓶颈,不会受制于它 • …... 计算引擎之优化器 PieCloudDB Optimizer 是⼀个基于eMPP架构的云原⽣分布式优化器,它 可以为海量数据集上的复杂OLAP查询提供最优的查询计划。 • 分布式优化器 • 处理复杂OLAP查询 • 云原生优化器 处理复杂OLAP查询 多表连接的最 优顺序搜索 多阶段聚集0 码力 | 31 页 | 1.43 MB | 1 年前3 云原生数据库 PieCloudDB eMPP架构设计与实现计算优化(各种功能特性持续优化中) • 很多复杂OLAP查询如果不是IO瓶颈,不会受制于它 • …... 计算引擎之优化器 PieCloudDB Optimizer 是⼀个基于eMPP架构的云原⽣分布式优化器,它 可以为海量数据集上的复杂OLAP查询提供最优的查询计划。 • 分布式优化器 • 处理复杂OLAP查询 • 云原生优化器 处理复杂OLAP查询 多表连接的最 优顺序搜索 多阶段聚集0 码力 | 31 页 | 1.43 MB | 1 年前3
 PieCloudDB:基于PostgreSQL的eMPP云原生数据库reserved. OpenPie Confidential 构建新一代云原生存储引擎 • 用户成本 (存储成本) • 自动选取适应类型的编码 • 压缩 • 减少对象存储的访问开销 • OLAP 性能 • 多级缓存 • 行列混合存储 • 定义内外存的数据格式 • 文件内统计信息 • 智能Analyze @2022 OpenPie. All rights reserved. OpenPie OpenPie Confidential PieCloudDB Optimizer 是一个基于eMPP架构的云原生分布式优化器,它 可以为海量数据集上的复杂OLAP查询提供最优的查询计划。 • 分布式优化器 • 处理复杂OLAP查询 • 云原生优化器 PieCloudDB Optimizer @2022 OpenPie. All rights reserved. OpenPie Confidential 分布式架构的特点 计算节点间 并行执行 多个更小的 计划单元 @2022 OpenPie. All rights reserved. OpenPie Confidential 处理复杂OLAP查询 多表连接的最 优顺序搜索 多阶段聚集 分区表的静态 和动态裁剪 相关子查询的 提升转换 CTE和递归CTE 的优化 等等 @2022 OpenPie. All rights0 码力 | 45 页 | 1.32 MB | 1 年前3 PieCloudDB:基于PostgreSQL的eMPP云原生数据库reserved. OpenPie Confidential 构建新一代云原生存储引擎 • 用户成本 (存储成本) • 自动选取适应类型的编码 • 压缩 • 减少对象存储的访问开销 • OLAP 性能 • 多级缓存 • 行列混合存储 • 定义内外存的数据格式 • 文件内统计信息 • 智能Analyze @2022 OpenPie. All rights reserved. OpenPie OpenPie Confidential PieCloudDB Optimizer 是一个基于eMPP架构的云原生分布式优化器,它 可以为海量数据集上的复杂OLAP查询提供最优的查询计划。 • 分布式优化器 • 处理复杂OLAP查询 • 云原生优化器 PieCloudDB Optimizer @2022 OpenPie. All rights reserved. OpenPie Confidential 分布式架构的特点 计算节点间 并行执行 多个更小的 计划单元 @2022 OpenPie. All rights reserved. OpenPie Confidential 处理复杂OLAP查询 多表连接的最 优顺序搜索 多阶段聚集 分区表的静态 和动态裁剪 相关子查询的 提升转换 CTE和递归CTE 的优化 等等 @2022 OpenPie. All rights0 码力 | 45 页 | 1.32 MB | 1 年前3
 1_丁来强_开源AIOps数据中台搭建与Python的作用告警 • 应⽤用编排 3 开源⽅方案选择与Python作⽤用 特定场景下特定的平台搭建选择及策略略以及Python的作⽤用 • ⽇日志类数据⽅方案 • 指标类时序数据⽅方案 • 其他OLAP选择 • AI增强⽅方案 数据源与监控 - 容器器化架构为例例 物理理主机/VM层监控 容器器POD指标监控 容器器CaaS层资源监控 应⽤用层性能监控 应⽤用层 ⽇日志 指标监控 集成50+内置⽣态模块(⽇志与指标) • ⽀持容器类部署场景 其他OLAP选择: Druid • 性能优越: • PB级别规模 • 亚秒级OLAP系统 • 实时写⼊入与查询 • 组件⻆角⾊色较多,搭建较为复杂 • Json-QL(有SQL适配器器) • 不不⽀支持外Join、窗⼝口等 其他OLAP选择: Clickhouse • 性能优越: • 10亿+条规模⽐比商业软件快5倍0 码力 | 48 页 | 17.54 MB | 1 年前3 1_丁来强_开源AIOps数据中台搭建与Python的作用告警 • 应⽤用编排 3 开源⽅方案选择与Python作⽤用 特定场景下特定的平台搭建选择及策略略以及Python的作⽤用 • ⽇日志类数据⽅方案 • 指标类时序数据⽅方案 • 其他OLAP选择 • AI增强⽅方案 数据源与监控 - 容器器化架构为例例 物理理主机/VM层监控 容器器POD指标监控 容器器CaaS层资源监控 应⽤用层性能监控 应⽤用层 ⽇日志 指标监控 集成50+内置⽣态模块(⽇志与指标) • ⽀持容器类部署场景 其他OLAP选择: Druid • 性能优越: • PB级别规模 • 亚秒级OLAP系统 • 实时写⼊入与查询 • 组件⻆角⾊色较多,搭建较为复杂 • Json-QL(有SQL适配器器) • 不不⽀支持外Join、窗⼝口等 其他OLAP选择: Clickhouse • 性能优越: • 10亿+条规模⽐比商业软件快5倍0 码力 | 48 页 | 17.54 MB | 1 年前3
 Apache Doris 在美团外卖数仓中的应用实践右,但为了应对所有需求场景,业务要求计算近半年以上的历史。 不支持明细数据的查询。 解决方案:引入MPP引擎,数据现用现算 既然变化维的历史数据预计算成本巨大,最好的办法就是现用现算,但现用现算需要强大的并行 计算能力。OLAP的实现有MOLAP、ROLAP、HOLAP三种形式,MOLAP以Cube为表现形式,但计 算与管理成本较高。ROLAP需要强大的关系型DB引擎支撑。长期以来,由于传统关系型DBMS的 数据处理能力 粒度,通过现场计算进行历史数据的回溯分析,实现现用现算,可以节省掉预计算的巨大成本, 并带来较大的应用灵活性。这种情况下适合MPP引擎支撑下的ROLAP生产模式。 MPP引擎的选型 目前开源的比较受关注的OLAP引擎很多,比如Greenplum、Apache Impala、Presto、Doris、Cl ickHouse、Druid、TiDB等等,但缺乏实践案例的介绍,所以我们也没有太多的经验可以借鉴。 足于公司技术生态融合、集成、 易用性等维度进行综合考虑,作为选型依据,最终我们平台部门选择了2018年刚进入Apache社 区的Doris。 Doris简介及特点 Doris是基于MPP架构的OLAP引擎,主要整合了Google Mesa(数据模型)、Apache Impala(MPP Query Engine)和Apache ORCFile (存储格式,编码和压缩)的技术。 Doris的系0 码力 | 8 页 | 429.42 KB | 1 年前3 Apache Doris 在美团外卖数仓中的应用实践右,但为了应对所有需求场景,业务要求计算近半年以上的历史。 不支持明细数据的查询。 解决方案:引入MPP引擎,数据现用现算 既然变化维的历史数据预计算成本巨大,最好的办法就是现用现算,但现用现算需要强大的并行 计算能力。OLAP的实现有MOLAP、ROLAP、HOLAP三种形式,MOLAP以Cube为表现形式,但计 算与管理成本较高。ROLAP需要强大的关系型DB引擎支撑。长期以来,由于传统关系型DBMS的 数据处理能力 粒度,通过现场计算进行历史数据的回溯分析,实现现用现算,可以节省掉预计算的巨大成本, 并带来较大的应用灵活性。这种情况下适合MPP引擎支撑下的ROLAP生产模式。 MPP引擎的选型 目前开源的比较受关注的OLAP引擎很多,比如Greenplum、Apache Impala、Presto、Doris、Cl ickHouse、Druid、TiDB等等,但缺乏实践案例的介绍,所以我们也没有太多的经验可以借鉴。 足于公司技术生态融合、集成、 易用性等维度进行综合考虑,作为选型依据,最终我们平台部门选择了2018年刚进入Apache社 区的Doris。 Doris简介及特点 Doris是基于MPP架构的OLAP引擎,主要整合了Google Mesa(数据模型)、Apache Impala(MPP Query Engine)和Apache ORCFile (存储格式,编码和压缩)的技术。 Doris的系0 码力 | 8 页 | 429.42 KB | 1 年前3
共 79 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8













