• pdf 文档 TVM Meetup: Quantization

    0 码力 | 19 页 | 489.50 KB | 5 月前
    3
    文档详细介绍了TVM中的量化技术,特别是INT8量化方法。TVM通过自动化流程将FP32图转换为INT8图,使用QNN方言设计了多个运算符,如qnn.quantize和qnn.conv2d,并通过Lowering过程将这些运算符转换为Relay操作。文档还探讨了支持框架量化操作的两种方法,分别是新建运算符和使用QNN方言重复使用现有基础设施。此外,文档还展示了在不同硬件目标(如Intel x86、ARM CPU和Nvidia GPU)上量化模型的实现,并提到了量化对模型性能的提升,例如Mobilenet在对称量化模型中获得了2.8倍的加速。
共 1 条
  • 1
前往