[论文翻译]Squeeze BERT:计算机视觉能为 NLP 提供哪些关于高效神经网络的启示?
人类每天阅读和书写数千亿条消息。此外,由于大规模数据集、大型计算系统和更好的神经网络模型的可用性,自然语言处理(NLP)技术在理解、校对和组织这些消息方面取得了显著进展。因此,在众多应用中部署 NLP 技术以帮助网络用户、社交网络和企业具有巨大的机会。特别是,我们认为智能手机和其他移动设备是规模化部署 NLP 模型的关键平台。然而,当今高度准确的 NLP 神经网络模型(如 BERT 和 RoBERTa)计算成本极高,BERT-base 在 Pixel 3 智能手机上分类一段文本需要 1.7 秒。在这项工作中,我们观察到诸如分组卷积等方法在计算机视觉网络中带来了显著的加速,但许多这些技术尚未被 NLP 神经网络设计者采用。我们展示了如何用分组卷积替换自注意力层中的多个操作,并将这一技术应用于一种名为 Squeeze BERT 的新型网络架构中,该架构在 Pixel 3 上比 BERT-base 快 \$4.3\mathbf{X}\$,同时在 GLUE 测试集上实现了具有竞争力的准确性。Squeeze BERT 代码将公开发布。