综合其他 · 人工智能 - IT文库

TVM Meetup: Quantization

0 码力 | 19 页 | 489.50 KB | 5 月前
3

文档详细介绍了TVM中的量化技术，特别是INT8量化方法。TVM通过自动化流程将FP32图转换为INT8图，使用QNN方言设计了多个运算符，如qnn.quantize和qnn.conv2d，并通过Lowering过程将这些运算符转换为Relay操作。文档还探讨了支持框架量化操作的两种方法，分别是新建运算符和使用QNN方言重复使用现有基础设施。此外，文档还展示了在不同硬件目标（如Intel x86、ARM CPU和Nvidia GPU）上量化模型的实现，并提到了量化对模型性能的提升，例如Mobilenet在对称量化模型中获得了2.8倍的加速。

共 1 条前往

页

Quantization QNN dialect Relay graph Lowering INT8