[论文翻译]神经文本退化的奇特案例
尽管神经语言建模已取得显著进展,但对于从语言模型生成文本(例如生成一个故事)而言,最佳的解码策略是什么,这仍是一个悬而未决的问题。有悖直觉的实证观察结果是,尽管将似然性作为训练目标能为广泛的语言理解任务打造高质量模型,但基于最大化的解码方法(如集束搜索)却会导致文本退化 —— 生成的文本平淡无奇、缺乏连贯性,或者陷入重复循环。
为解决这一问题,我们提出了核采样法(Nucleus Sampling),这是一种简单却有效的方法,与先前的解码策略相比,它能从神经语言模型中生成质量高得多的文本。我们的方法通过截断概率分布中不可靠的尾部,从包含绝大部分概率质量的动态词核中进行采样,从而避免文本退化。
为了恰当地检验当前基于最大化的解码方法和随机解码方法,我们从似然性、多样性和重复性等多个维度,将这些方法生成的文本与人类文本的分布进行了比较。我们的研究结果表明:(1)对于开放式文本生成而言,最大化并非合适的解码目标;(2)当前最佳语言模型的概率分布存在不可靠的尾部,在生成文本时需要将其截断;(3)就生成高质量(以人工评估为衡量标准)且与人类书写文本一样具有多样性的长篇文本而言,核采样法是目前可用的最佳解码策略。