数仓ClickHouse多维分析应用实践-朱元0 码力 | 14 页 | 3.03 MB | 1 年前3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰iData 大数据分析PaaS 实时 分析 多维 分析 画像 分析 … DataMore 大数据应用PaaS 实时 决策 任务 系统 … 排 行 榜 大数据应用 SaaS系统 iData 用户画像 DataMore 月光宝盒 DataMore 任务系统 iData 数据可视化 游 谱 游戏说 神秘 商店 iData 多维提取 … 游戏数据 驱动场景 潘多拉 社交与功能 大数据应用PaaS服务 游戏数据驱动场景 n 实时干预游戏用户 n 精细化、精准化驱动场景服务 n 提升原有服务的增强效果 n iData大数据分析PaaS 在线实时能力 n iData大数据分析:多维分析,画像分析能力 n DataMore大数据实时决策能力 一切以用户价值为依归 17 业务应用实践 iData 2 新大数据分析引擎2.0 业界传统 大数据分析 引擎 大数据分析引擎&存储 Column1 DataNode Column2 Column3 ColumnN bitmap 画像下钻分布式计算引擎 多维 提取 iData大数据分析引擎 分布式多维计算引擎 基于位图索引和行式内容存储 分布式画像引擎 基于位图索引和列式内容存储 多维 分析 跟踪 分析 下钻 分析 透视 分析 画像 分析 一切以用户价值为依归 19 业务应用实践 iData 2 旧画像系统0 码力 | 26 页 | 3.58 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践支撑数据分析产品数十个以上,整体响应达到ms级。 支持百万、千万级大表关联查询,同时进行维表关联的雪花模型,经过Colocate Join特性优化,可以实现秒级响应。 日级别,基于商家明细现场计算,同时满足汇总及下钻明细查询,查询时效基本都可以控 制在秒级。 7日趋势分析,2~3秒。由于数据量较大,根据集群规模不同查询性能有所区别,但数据量 较大时,调动的集群资源较多,因此MPP的并发性能受限于集群的性能。一般原则是并发 可靠的调度能力:提供5、10、15、30分钟的调度保障能力。 Lambda架构简化:实时数据与离线数据更好的在Doris中进行融合,灵活支撑应用。 高效的OLAP交互 :支撑业务的灵活查询访问,业务层通过视图进行逻辑封装直接复用汇总层多维模型,提高了开 发效率,减少了运维成本。 相比Storm、Flink中的窗口计算,准实时DB微批的优势: Doris引擎在美团的重要改进 Join 谓词下推的传递性优化 如上图所示,对于下面的0 码力 | 8 页 | 429.42 KB | 1 年前3
Doris的数据导入机制以及原子性保证Doris中的导入 使用案例 04 Doris简介 01 • 基于MPP(大规模并行处理)架构的分析型数据库 01 Doris简介 • 性能卓越,PB级别数据毫秒/秒级响应 • 适用于高并发、低延时下的多维分析、实时报表等场景 • 由百度自研,2017年开源,2018年贡献给Apache社区后更名为 Apache Doris 系统定位 • 百度内部统称其为“百度数据仓库Palo”,同时百度云上提供Palo的企业级托管版本 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析 业务应用 实时大屏 多维报表 自助查询 用户画像 Doris 02 导入的问题 Vn Vn Vn Vn V1-Vn-1 02 导入的问题 • 部分数据丢失,产生脏数据 • 数据重复 数据完整性问题0 码力 | 33 页 | 21.95 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商pretty_bool]) UDW中Json类型 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 142/206 以 JSON 数组格式返回输⼊的数组。 ⼀个UDW多维数组将被转换成⼀个由多个数组组成的 JSON 数组。如果 pretty_bool的值为 true , 那么则在维度-1元素之间添加换⾏符。 如下所 ⽰: row_to_json(record [ 三⽅的BI系统,请参考我们的⽂档: UDW接⼊第三⽅BI系统 案例⼆ 案例⼆ 基于 基于UDW实现⽹络流分析 实现⽹络流分析 背景介绍 背景介绍 ⽹络流分析主要包括对⽤⼾的⽹络流数据进⾏存储和多维度的分析两部分。⽤⼾的⽹络流的数据每天产⽣400G左右,数据保留10天。针对⽹络流数据的分析主要包含流量分析、包量分析、 TCP延迟分析、HTTP状态码分析、TCP重传分析等。 UDW 使⽤案例0 码力 | 206 页 | 5.35 MB | 1 年前3
[PingCAP Meetup SH 5.26]TiDB在Ping++金融聚合支付下的实践0526Docker的聚合⽀支付私有化部署⽅方案 • 关于TiDB的线上运维 - TiDB体系 - 业务零感知运维 Ping++原数据架构及瓶颈 实时数仓数据源挑战: • 数⼗十亿交易易量量 • 多维度联合分析 • 实时分析+报表下载 场景⼀一:实时数仓数据源⽀支撑 数仓数据源选型过程: • RDS快速上线 最⼤大承载3个⽉月交易易量量分析 • ADS 偶发性数据延时0 码力 | 11 页 | 630.95 KB | 6 月前3
ClickHouse在B站海量数据场景的落地实践用户行为数据分析 概述 v 基于ClickHouse构建B站⽤户⾏为数据分析产品:北极星 v 行为数据分析平台主要以下功能模块: 事件分析 v 海量埋点事件数据,⽇增数据千亿级。 v ⽤户⾏为事件的多维度分析场景。 v 事件包含公共属性和私有属性,均可作过滤和聚合维度。 v 不同事件有不同的私有属性字段。 v 动态选择的过滤维度和聚合维度。 v 交互式分析延迟要求 (5秒内)。 路径分析0 码力 | 26 页 | 2.15 MB | 1 年前3
2. ClickHouse MergeTree原理解析-朱凯国家能源集团 安徽皖能 南方电网 金川集团 金晶集团 中航集团 比亚迪股份 互联数据资源、为组织数字资产管理运营、数据探索、分析赋能! 数据汇聚 专业的数据资源管理 自助分析 价值挖掘 多维探索 灵活 快速 自助 洞察 预警 消息 交互 Agenda. 数据分区 01 / 一级索引&二级索引 02 / 数据存储 03 / 数据标记 04 / 表引擎 表引擎,是Click0 码力 | 35 页 | 13.25 MB | 1 年前3
HBase最佳实践及优化中国用户大会 4 HBase的模型特性 Hadoop database and NoSQL database • 基本的数据库操作CRUD • 强一致性 • 无SQL语言支持 • 稀疏的多维映射表 – 列存储 – 只用row key来定位行 – 每行可以有不同的列 – 数据有多个版本(在不同的时间点的快照信息) • 分布式的多层次映射表结构(key-value形式,value有多个)0 码力 | 45 页 | 4.33 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 GreenplumopenEuler DB SIG 联合在 openEuler 20.03 LTS SP2 上进行 了 TPC-DS 性能测试。测试过程如下: a. TPC-DS 介绍 TPC-DS 采用星型、雪花型等多维数据模式。包含 7 张事实表、17 张维度表,平均每张表含有 18 列,其工作负载包 含 99 个 SQL 查询,覆盖 SQL99 和 2003 的核心部分以及 OLAP。这个测试集包含对大数据集的统计、报表生成、联0 码力 | 17 页 | 2.04 MB | 1 年前3
共 29 条
- 1
- 2
- 3













