2020美团技术年货 算法篇裁剪和知识蒸馏方式效果对比 在美团搜索核心排序的业务场景下,我们采用知识蒸馏使得 BERT 模型在对响应时 间要求苛刻的搜索场景下符合了上线的要求,并且效果无显著的性能损失。知识蒸 馏(Knowledge Distillation)核心思想是通过迁移知识,从而通过训练好的大模型 得到更加适合推理的小模型。首先我们基于 MT-BERT(12 Layers),在大规模的 美团点评业务语料上进行知识蒸馏得到通用的 MT-BERT Knowledge in a Neural Network. 2015. [7] Yew Ken Chia et al.Transformer to CNN: Label-scarce distillation for efficient text classification. 2018. [8] K-BERT: Enabling Language Representation with0 码力 | 317 页 | 16.57 MB | 1 年前3
2022年美团技术年货 合辑2 YOLOv6 量化感知蒸馏框架 针 对 YOLOv6s, 我 们 选 择 对 Neck(Rep-PAN)输 出 的 特 征 图 进 行 通 道 蒸 馏 (channel-wise distillation, CW)。另外,我们采用“自蒸馏”的方法,教师模型是 FP32 精度的 YOLOv6s,学生模型是 INT8 精度的 YOLOv6s。下图 7 是一个简化 示意图,只画出了 Neck Nsight-systems: https://docs.nvidia.com/nsight-systems/UserGuide/index.html [6] Channel-wise Knowledge Distillation for Dense Prediction, https://arxiv.org/ abs/2011.13256 [7] YOLOv6: A Single-Stage Object Detection https://tech.meituan.com/2021/07/08/multi-business-modeling.html. [7] Tang, Jiaxi, and Ke Wang. “Ranking distillation: Learning compact ranking models with high performance for recommender system.” Proceedings0 码力 | 1356 页 | 45.90 MB | 1 年前3
共 2 条
- 1













