4. ClickHouse在苏宁用户画像场景的实践物化视图 5. 高基数查询 6. 精确去重计数(count distinct) 3 精确去重计数性能测试 4亿多的数据集上,去重计算出6千万整形数值, 非精确去重函数:uniq、uniqHLL12、uniqCombined 精确去重函数:uniqExact、groupBitmap 函数 时长(秒) 去重后个数 误差个数 误差率 uniq(id) 4 精确去重计数性能测试 1.554 1.341 1.613 50.437 7.038 0 10 20 30 40 50 60 时长 结论: • 整形值精确去重场景,groupBitmap 比 uniqExact至少快 2x+ • groupBitmap仅支持整形值去重, uniqExact支持任意类型去重。 • 非精确去重场景,uniq在精准度上有优势。 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 误差率 精确去重计数性能测试 6 ClickHouse在苏宁使用场景 OLAP平台存储引擎 -- 存储时序数据、cube加速数据,应用亍高基数查询、精确去重场景。 运维监控 -- 实时聚合分析监控数据,主要使用物化视图技术。 用户画像场景0 码力 | 32 页 | 1.47 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践: 技术权衡 MOLAP :通过预计算,提供稳定的切片数据,实现多次查询一次计算,减轻了查询时的计算压力,保证 了查询的稳定性,是“空间换时间”的最佳路径。实现了基于Bitmap的去重算法,支持在不同维度 下去重指标的实时统计,效率较高。 ROLAP :基于实时的大规模并行计算,对集群的要求较高。MPP引擎的核心是通过将数据分散,以实现 CPU、IO、内存资源的分布,来提升并行计算能力。在当前数据存储以磁盘为主的情况下,数据S CPU,仍然是资源的短板。因此,高频的大规模汇 总统计,并发能力将面临较大挑战,这取决于集群硬件方面的并行计算能力。传统去重算法需要 大量计算资源,实时的大规模去重指标对CPU、内存都是一个巨大挑战。目前Doris最新版本已经 支持Bitmap算法,配合预计算可以很好地解决去重应用场景。 3 / 8 Apache [shuffle] C t6 ON ((t1.dt = t6.dt) AND (t1.id = t6.id)) where t1.dt in (xxx days); Bitmap 精确去重 Doris之前实现精确去重的方式是现场计算的,实现方法和Spark、MapReduce类似: 对于上图计算PV的SQL,Doris在计算时,会按照下图的方式进行计算,先根据page列和user_id 列group0 码力 | 8 页 | 429.42 KB | 1 年前3
Greenplum Database 管理员指南 6.2.1.................. - 345 - 规划数据重分布 .............................................................................................................. - 346 - 管理大规模集群的数据重分布 .............................. ................................ - 347 - 重分布 AO 表和压缩表 ........................................................................................... - 348 - 重分布分区表 ..................................... ..................................................................... - 348 - 重分布有索引的表 .................................................................................................. - 349 - 准备并添加新的计算节点主机0 码力 | 416 页 | 6.08 MB | 1 年前3
TiDB v5.2 中文手册2.0 及以上版本的 TiDB 在 Apple M1 芯片的机器上运行 tiup playground。 – 以这种方式执行的 playground,在结束部署测试后 TiUP 会清理掉原集群数据,重 新执行该命令后会得到一个全新的集群。 – 若 希 望 持 久 化 数 据, 可 以 执 行 TiUP 的 --tag 参 数:tiup --tag�→ playground To view the Grafana: http://127.0.0.1:3000 61 注意: – 以这种方式执行的 playground,在结束部署测试后 TiUP 会清理掉原集群数据,重 新执行该命令后会得到一个全新的集群。 – 若 希 望 持 久 化 数 据, 可 以 执 行 TiUP 的 --tag 参 数:tiup --tag �→ playground --format hex \ --cf default 以上命令会备份 default CF 上 [0x31, 0x3130303030303030) 之间的所有键到 $BACKUP_DIR 去。 这里,--start 和 --end 的参数会先依照 --format 指定的方式解码,再被送到 TiKV 上去,目前支持以下解码 方式: • “raw”:不进行任何操作,将输入的字符串直接编码为二进制格式的键。 0 码力 | 2259 页 | 48.16 MB | 1 年前3
TiDB v5.1 中文手册1:2379/dashboard To view the monitor: http://127.0.0.1:9090 注意: – 以这种方式执行的 playground,在结束部署测试后 TiUP 会清理掉原集群数据,重 新执行该命令后会得到一个全新的集群。 – 若 希 望 持 久 化 数 据, 可 以 执 行 TiUP 的 --tag 参 数:tiup --tag�→ playground 1:2379/dashboard To view the monitor: http://127.0.0.1:9090 注意: – 以这种方式执行的 playground,在结束部署测试后 TiUP 会清理掉原集群数据,重 新执行该命令后会得到一个全新的集群。 – 若 希 望 持 久 化 数 据, 可 以 执 行 TiUP 的 --tag 参 数:tiup --tag �→ playground --format hex \ --cf default 以上命令会备份 default CF 上 [0x31, 0x3130303030303030) 之间的所有键到 $BACKUP_DIR 去。 这里,--start 和 --end 的参数会先依照 --format 指定的方式解码,再被送到 TiKV 上去,目前支持以下解码 方式: • “raw”:不进行任何操作,将输入的字符串直接编码为二进制格式的键。 0 码力 | 2189 页 | 47.96 MB | 1 年前3
TiDB v5.3 中文手册column in Schema column 报错的问题 #28149 – 修复 TiDB 在 TiFlash 关闭时可能出现 panic 的问题 #28096 – 移除对基于 3DES (三重数据加密算法) 不安全的 TLS 加密套件的支持 #27859 – 修复因 Lightning 前置检查会连接已下线的 TiKV 节点而导致导入失败的问题 #27826 – 修复在导入太多文件到表时前置检查花费太多时间的问题 2.0 及以上版本的 TiDB 在 Apple M1 芯片的机器上运行 tiup playground。 – 以这种方式执行的 playground,在结束部署测试后 TiUP 会清理掉原集群数据,重 新执行该命令后会得到一个全新的集群。 – 若 希 望 持 久 化 数 据, 可 以 执 行 TiUP 的 --tag 参 数:tiup --tag�→ playground To view the Grafana: http://127.0.0.1:3000 69 注意: – 以这种方式执行的 playground,在结束部署测试后 TiUP 会清理掉原集群数据,重 新执行该命令后会得到一个全新的集群。 – 若 希 望 持 久 化 数 据, 可 以 执 行 TiUP 的 --tag 参 数:tiup --tag �→ playground 0 码力 | 2374 页 | 49.52 MB | 1 年前3
TiDB v5.4 中文手册2.0 及以上版本的 TiDB 在 Apple M1 芯片的机器上运行 tiup playground。 – 以这种方式执行的 playground,在结束部署测试后 TiUP 会清理掉原集群数据,重 新执行该命令后会得到一个全新的集群。 – 若 希 望 持 久 化 数 据, 可 以 执 行 TiUP 的 --tag 参 数:tiup --tag�→ playground To view the Grafana: http://127.0.0.1:3000 75 注意: – 以这种方式执行的 playground,在结束部署测试后 TiUP 会清理掉原集群数据,重 新执行该命令后会得到一个全新的集群。 – 若 希 望 持 久 化 数 据, 可 以 执 行 TiUP 的 --tag 参 数:tiup --tag �→ playground 导入期间,需要临时空间来存储排序键值对,磁盘空间需要至少能存储数据源的最大单表。 • 若全量数据量较大,可适当加长上游 binlog 保存时间,以避免增量同步时缺必要 binlog 导致重做。 说明:目前无法精确计算 Dumpling 从 MySQL 导出的数据大小,但你可以用下面 SQL 语句统计信息表的 data_length 字段估算数据量: /* 统计所有 schema 大小,单位 MiB,注意修改 0 码力 | 2852 页 | 52.59 MB | 1 年前3
百度智能云 Apache Doris 文档HLL(HyperLogLog) 类型是一个二进制类型。HLL 类型只能用于聚合类型的表(Aggregation Table),并且必须指定聚合类型为 HLL_UNION。 HLL 类型主要用于非精确快速去重场景下,对数据进行预聚合。 HLL列只能通过配套的 hll_union_agg、hll_cardinality、hll_hash 进行查询或使用。 BITMAP 数据类型 BITMAP 数据类型 BITMAP 类型是一个二进制类型。BITMAP 类型只能用于聚合类型的表(Aggregation Table),并且必须指定聚合类型为 BITMAP_UNION。 BITMAP 类型主要用于精确去重场景下,对数据进行预聚合。同时也可以用于如用户画像场景存放用户ID等。 BITMAP 列只能通过配套的 BITMAP 函数进行查询和使用。 mysql> select cast(1234 as "yyyyyyyyyyyyyyyyyyyyyyyyyy" ));; EXPORT EXPORT Baidu 百度智能云文档 SQL手册 36 一个 Export 作业会拆分成多个子任务(执行计划)去执行。有多少查询计划需要执行,取决于总共有多少 Tablet,以及一个查 询计划最多可以分配多少个 Tablet。 因为多个查询计划是串行执行的,所以如果让一个查询计划处理更多的分片,则可以减少作业的执行时间。0 码力 | 203 页 | 1.75 MB | 1 年前3
TiDB v6.1 中文手册支持根据指定参数条件启动任务 开始一个迁移任务时,允许指定 “开始时间” 和 “safe-mode 持续时间”。这在创建具有大量 source 的增 量迁移任务时尤其有用,无需再为每个 source 精确指定 binlog 起始同步位置。 用户文档,#5442 2.2.1.8 数据共享订阅 • 支持与更丰富的第三方数据生态系统进行数据共享 – TiCDC 支持将 TiDB 数据库的增量数据以 2.0 及以上版本的 TiDB 在 Apple M1 芯片的机器上运行 tiup playground。 – 以这种方式执行的 playground,在结束部署测试后 TiUP 会清理掉原集群数据,重 新执行该命令后会得到一个全新的集群。 – 若 希 望 持 久 化 数 据, 可 以 执 行 TiUP 的 --tag 参 数:tiup --tag�→ playground To view the Grafana: http://127.0.0.1:3000 84 注意: – 以这种方式执行的 playground,在结束部署测试后 TiUP 会清理掉原集群数据,重 新执行该命令后会得到一个全新的集群。 – 若 希 望 持 久 化 数 据, 可 以 执 行 TiUP 的 --tag 参 数:tiup --tag �→ playground 0 码力 | 3572 页 | 84.36 MB | 1 年前3
TiDB v7.1 中文手册-limit 新增 用于控制 split 和 scatter 操作 后等待 Region 上线 的重试次 数,默认 值为 1800。 重试符合 指数回退 策略,最 大重试间 隔为 2 秒。 若两次重 试之间有 任何 Region 上线,该 次操作不 会被计为 重试次数。 54 配置文件 配置项 修改类型 描述 TiDB Lightning tikv- �→ importer �→ . �→ 修复在谓词下推的情况下 CTE 结果错误的问题 #43645 @winoros – 修复分区特别多并且带有 TiFlash 副本的分区表在执行 TRUNCATE TABLE 时,出现写冲突导致 DDL 重 试的问题 #42940 @mjonss – 修复在创建分区表时使用 SUBPARTITION 没有警告提醒的问题 #41198 #41200 @mjonss – 修复生成列在处理值溢出问题时与 MySQL 2.0 及以上版本的 TiDB 在 Apple M1 芯片的机器上运行 tiup playground。 – 以这种方式执行的 playground,在结束部署测试后 TiUP 会清理掉原集群数据,重 新执行该命令后会得到一个全新的集群。 77 – 若 希 望 持 久 化 数 据, 可 以 执 行 TiUP 的 --tag 参 数:tiup --tag�→ playground 0 码力 | 4369 页 | 98.92 MB | 1 年前3
共 76 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8













