论文部分内容阅读
模型存储压缩,旨在在不改变模型性能的同时,大幅度降低神经网络中过多的模型参数带来的存储空间浪费。研究人员对于模型存储压缩方法的研究大多数在计算机视觉任务上,缺乏对机器翻译模型压缩方法的研究。该文在机器翻译任务上通过实验对比剪枝、量化、低精度三种模型压缩方法在Transformer和RNN(recurrent neural network)两种模型上的模型压缩效果,最终使用剪枝、量化、低精度三种方法的组合方法可在不损失原有模型性能的前提下在Transformer和RNN模型上分别达到5.8×和11.7×的压缩率。同时,该文还针对三种模型压缩方法在不同模型上的优缺点进行了分析。