[论文翻译]BERT:面向语言理解的深度双向Transformer预训练
我们提出了一种名为BERT (Bidirectional Encoder Representations from Transformers) 的新语言表示模型。与近期其他语言表示模型 (Peters et al., 2018a; Radford et al., 2018) 不同,BERT通过在所有层中联合调节左右上下文,从未标记文本中预训练深度双向表示。因此,预训练的BERT模型只需添加一个额外输出层进行微调,即可为问答和语言推理等多种任务创建最先进的模型,而无需对任务特定架构进行重大修改。