[论文翻译]大语言模型 (Large Language Model) 能否替代人类评估?
人类评估对于判断机器学习模型生成或人工撰写文本的质量而言不可或缺且不可避免。然而,人类评估难以复现,其质量也极不稳定,这阻碍了不同自然语言处理(NLP)模型与算法间的公平比较。近期研究表明,大语言模型(LLM)仅凭任务指令就能在未见任务上展现卓越性能。本文探讨是否可将LLM的这种能力作为人类评估的替代方案:我们向LLM提供与人类评估完全相同的指令、待评估样本及问题,要求其生成对应回答——这种评估方式称为LLM评估。我们分别在开放式故事生成和对抗攻击两个NLP任务中,同步采用人类评估与LLM评估进行文本质量判定。实验表明,LLM评估结果与专家人类评估具有一致性:人类专家评分较高的文本同样获得LLM更高评价。我们还发现,LLM评估结果不受任务指令格式差异及答案生成采样算法的影响。本研究首次揭示了利用LLM评估文本质量的潜力,并讨论了LLM评估的局限性与伦理考量。