3月13日消息,MSRA在最新论文中提出了一种新型模型压缩方法,能够通过逐步模块替换有效地压缩BERT。该方法首先将原版BERT分割成多个模块,并构建更加紧凑的替代模块;然后,用替代模块随机替换原始模块,训练替代模块来模仿原始模块的行为。在训练过程中,研究者逐步增加模块的替换概率,从而实现原始模型与紧凑模型之间的更深层次交互,使得训练过程流畅进行。与之前用于BERT压缩的知识蒸馏方法相比,该方法仅利用一个损失函数和一个超参数,将开发者从调参这一繁琐过程中解放出来。该方法在GLUE基准上的性能优于现有的知识蒸馏方法,为模型压缩开启了新方向。