[论文翻译]Med-HALT: 大语言模型医疗领域幻觉测试
本研究论文重点探讨大语言模型(LLM)在医疗领域产生的幻觉(hallucination)问题及其挑战。当这些模型生成看似合理但未经证实或错误的信息时,可能对医疗健康应用造成严重后果。我们提出了一个专为评估和减少幻觉而设计的新基准测试与数据集Med-HALT(Medical Domain Hallucination Test)。该数据集包含来自多国医疗考试的多样化跨国数据,并采用多种创新测试模式。Med-HALT包含推理类和记忆类两大幻觉测试类别,旨在评估大语言模型的问题解决与信息检索能力。