 2 使用Python训练和部署低精度模型 张校捷使用Python训练和部署低精度模型 (TensorFlow版) 张校捷 2019/9/21 目录 CONTENTS 低精度的概念和意义 TensorFlow的FP16模型 TensorRT的FP16/Int8模型 总结 1 低精度的概念和意义 实数的16-bit半精度浮点数和8-bit定点数表示 使用低精度的意义 深度学习模型中实数的表示 FP32: E8M23 FP16: org/pdf/1710.03740.pdf 3 TensorRT的FP16/Int8模型 TensorFlow中使用TensorRT 在TensorRT中使用FP16/Int8 TensorFlow + TensorRT环境的构建 TensorRT的安装(https://docs.nvidia.com/deeplearning/sdk/tensorrt-install-guide/index.html): html): 1. TensorRT 安装包:https://developer.nvidia.com/tensorrt 2. 从.deb文件安装libnvinfer.so 同时安装Python wheel文件tensorrt-6.0.1.5-cp37-none-linux_x86_64.whl 3. 安装TensorFlow 1.14 (GPU版本) 或者直接使用 Docker镜像: docker0 码力 | 24 页 | 981.45 KB | 1 年前3 2 使用Python训练和部署低精度模型 张校捷使用Python训练和部署低精度模型 (TensorFlow版) 张校捷 2019/9/21 目录 CONTENTS 低精度的概念和意义 TensorFlow的FP16模型 TensorRT的FP16/Int8模型 总结 1 低精度的概念和意义 实数的16-bit半精度浮点数和8-bit定点数表示 使用低精度的意义 深度学习模型中实数的表示 FP32: E8M23 FP16: org/pdf/1710.03740.pdf 3 TensorRT的FP16/Int8模型 TensorFlow中使用TensorRT 在TensorRT中使用FP16/Int8 TensorFlow + TensorRT环境的构建 TensorRT的安装(https://docs.nvidia.com/deeplearning/sdk/tensorrt-install-guide/index.html): html): 1. TensorRT 安装包:https://developer.nvidia.com/tensorrt 2. 从.deb文件安装libnvinfer.so 同时安装Python wheel文件tensorrt-6.0.1.5-cp37-none-linux_x86_64.whl 3. 安装TensorFlow 1.14 (GPU版本) 或者直接使用 Docker镜像: docker0 码力 | 24 页 | 981.45 KB | 1 年前3
 4 Python机器学习性能优化⼏几个可以选择的⽅方案: 1. 买更更多更更贵的机器器——fp16、v100、cpu化 2. 优化算法——知识蒸馏 3. 优化实现——jit/TensorRT PyTorch jit • 原理理介绍 • 转化为graph截图 TensorRT • NVIDIA推出的inference引擎 • ⾃自家硬件使⽤用到极致 • 与CPU⽐比较:20x faster • 正确的问法: 的算⼦子 知识蒸馏 • Teacher Student 学的更更快 • Huggingface Distill BERT • 12层 蒸出 6层 what’s next? • TensorRT inference server 改变pipeline • cpu化 不不在意延时,只追求吞吐量量 • fp16低精度 THANK YOU Meteorix 刘欣 github0 码力 | 38 页 | 2.25 MB | 1 年前3 4 Python机器学习性能优化⼏几个可以选择的⽅方案: 1. 买更更多更更贵的机器器——fp16、v100、cpu化 2. 优化算法——知识蒸馏 3. 优化实现——jit/TensorRT PyTorch jit • 原理理介绍 • 转化为graph截图 TensorRT • NVIDIA推出的inference引擎 • ⾃自家硬件使⽤用到极致 • 与CPU⽐比较:20x faster • 正确的问法: 的算⼦子 知识蒸馏 • Teacher Student 学的更更快 • Huggingface Distill BERT • 12层 蒸出 6层 what’s next? • TensorRT inference server 改变pipeline • cpu化 不不在意延时,只追求吞吐量量 • fp16低精度 THANK YOU Meteorix 刘欣 github0 码力 | 38 页 | 2.25 MB | 1 年前3
共 2 条
- 1













