[论文翻译]预测大语言模型问答性能的语义一致性方法
Predicting Question-Answering Performance of Large Language Models through Semantic Consistency
预测大语言模型问答性能的语义一致性方法
Ella Rabinovich Eitan Farchi
Ella Rabinovich Eitan Farchi
Orna Raz
Orna Raz
Samuel Ackerman Ateret Anaby-Tavor
Samuel Ackerman Ateret Anaby-...
语言模型的语义一致性广义上定义为模型在给定语义等价输入时产生语义等价输出的能力。我们通过手动创建包含高质量事实问题改述的基准数据集来评估当代大语言模型(LLM)的问答(QA)语义一致性,并将该数据集向社区公开。
我们进一步将语义一致性指标与先前研究中建议的、与大语言模型问答准确率相关的其他测量方法相结合,用于构建和评估一个无参考事实问答性能预测框架——预测语言模型准确回答问题的可能性。通过在五种当代大语言模型上评估该框架,我们展示了令人鼓舞且显著优于基线的结果。