其他分享
首页 > 其他分享> > Neural Network Compression Framework for fast model inference

Neural Network Compression Framework for fast model inference

作者:互联网

论文背景

文章地址
代码地址

名字看起来都是俄罗斯人

Abstract

基于pytorch框架, 可以提供quantization, sparsity, filter pruning and binarization等压缩技术. 可独立使用, 也可以与现有的training code整合在一起.

features

A few caveats and Framework Architecture

Compression Methods Overview

quantization

借鉴的方法有

q m i n q_{min} qmin​ q m a x q_{max} qmax​
Weights − 2 b i t s − 1 + 1 -2^{bits-1}+1 −2bits−1+1 2 b i t s − 1 − 1 2^{bits-1}-1 2bits−1−1
Signed Activation − 2 b i t s − 1 -2^{bits-1} −2bits−1 2 b i t s − 1 − 1 2^{bits-1}-1 2bits−1−1
Unsigned Activation0 2 b i t s − 1 2^{bits}-1 2bits−1

对称量化

scale是训练得到的, 用以表示实际的范围
在这里插入图片描述

非对称量化

训练优化float的范围, 0点为最小是
float zero-point经过映射后需要是在量化范围内的一个整数, 这个限制可以使带padding的layer计算效率高
在这里插入图片描述

Training and inference

和QAT, TQT不同, 论文中的方法并不会进行BN fold, 但是为了train和inference时的统计量一致, 需要使用大的batch size.(>256)

混合精度量化

使用HAWQ-v2方法来选择bit位,
敏感度计算方式如下:
在这里插入图片描述

压缩率计算方式: int8的复杂度/mixed-precision复杂度
复杂度 = FLOPs * bit-width

混合精度就是在满足压缩率阈值的情况下, 找到具有最小敏感度的精度配置.

Binarization

weights通过XNOR和DoReFa实现.

Sparsity

NNCF支持两只sparsity方式:
1 根据weights大小来训练
2 基于L0 regularization的训练

Filter pruning

NNCF implements three different criteria for filter importance:

标签:training,inference,compression,Neural,NNCF,sparsity,model,Compression
来源: https://blog.csdn.net/xieyi4650/article/details/118393883