当前位置：首页 > 编程日记 > 正文

经典不过时，回顾DeepCompression神经网络压缩

编程日记 2024-12-25 01:20:00

640?wx_fmt=jpeg

作者 | 薰风初入弦

转载自知乎

导读：本文作者为我们详细讲述了 ICLR 2016 的最佳论文 Deep Compression 中介绍的神经网络压缩方法。

神经网络压缩一直是一个重要的研究方向，而目前业界最认可的压缩方法莫过于 ICLR 2016 的最佳论文 Deep Compression，算法流程如下图所示：

上图为 Deep compression 论文介绍的神经网络压缩方法，可分为三步：

剪枝：舍弃权重绝对值较小的权重，并将剩余权重以稀疏矩阵表示。
量化：将剪枝结果进行进一步量化，具体的是构建一组权值码本，使模型中的权值共享码本中的其中一个权重值，以减少每个权重保存所需的比特数。
霍夫曼编码（可选）：通过霍夫曼编码，进一步地压缩索引值以及权重数值地存储空间。

Deep Compression 通过上述三个步骤之后，可以系统地压缩任意训练好的神经网络，达到 35 到 49 倍的压缩率。

1. 剪枝

首先，Deep Compression 通过设定一个阈值 640?wx_fmt=svg 实现一个简单的剪枝，若权重的绝对值大于阈值则保留这个权值，否则这个权值则会被抛弃（置零）。这等价于如下所示的公式：

640?wx_fmt=svg

若阈值设置得当，则权重矩阵应会从稠密矩阵转为一个稀疏矩阵（也可以是一个稀疏矩阵变得更加稀疏），由此权值矩阵可以使用存储稀疏矩阵的压缩存储方式存储，例如CSR(compressed sparse row) 或CSC(compressed sparse column)。Deep Compression在CSR和CSC的基础上，将索引值转为3比特的偏移量值（若超出3比特则需要补零），下面举一个简单的例子：

假设稀疏矩阵原来的存储方式为：

现在的存储方式为：

偏移量相较于索引值可以使用更少的比特进行存储，如果偏移量超过 3 比特可以表示的范围，则需要补充额外的 0 权重。

注意，这里的剪枝过程不止进行一次。通常情况下，模型进行一次剪枝之后需要再次训练，然后对训练结果再次剪枝，之后还要再次训练……重复这一过程直到保持精度的前提下模型无法继续剪枝为止。

2. 量化

量化从定义上指使用较低的位数，以一定的误差为代价，去表示一个高位数表示的值。

Deep Compression 的量化为创建一个权值码本，所有的权重大小都只能从码本中进行选择，即进行整个模型之间的权值共享。量化具体分为以下三步：

1. 初始化 k-means 质心：Deep Compression 量化过程中的权重聚类使用了 k-means 算法，因此 k-means 质心的初始化非常关键。常见的初始化方法三种：均匀初始化、随机初始化和按密度初始化，论文中证明最好使用均匀初始化，均匀初始化的方法是在权值的最小值 640?wx_fmt=svg 与最大值之间线性插值，得到均匀的初始化结果，如公式所示，其中是初始化的第个质心，为量化的位数，则有：

2. 确定对应关系：即确定各个权值分别对应码本中的哪个权值，对应关系通过上一步初始化的 k-means 算法确定。同一个聚类簇中的权重共享聚类中心的权值。

3. 权值微调：通过再训练微调 k-means 的质心，即码本中的权值（只微调质心的权值，所有权重与码本权值的对应关系不变）如下图所示：

如上图所示，首先所有权重和正常的神经网络一样计算梯度。但由于剪枝的作用，矩阵实际上已经是稀疏矩阵，权值矩阵中为 0 则表示该连接被移除，因此这些位置的梯度被舍弃（置 0 ）。而剪枝后，每一个权值对应的聚类结果（即对应码本中的权值）已经确定，在图中的聚类索引表示聚类的结果，同时该结果在权重和梯度图中以对应的颜色标注，例如权重中的 2.09（第一行第一列）和 2.12（第二行第四列）为同一类，量化之后他们的值也都是质心的值。

当生成梯度矩阵后，对聚类质心进行微调，即对同一类的所有权值的梯度求和，再乘以学习率（这里为了方便，假定学习率 lr=1 ），进行梯度下降，公式如下：

640?wx_fmt=svg