[论文翻译]Med-HALT: 大语言模型医疗领域幻觉测试

本研究论文重点探讨大语言模型(LLM)在医疗领域产生的幻觉(hallucination)问题及其挑战。当这些模型生成看似合理但未经证实或错误的信息时，可能对医疗健康应用造成严重后果。我们提出了一个专为评估和减少幻觉而设计的新基准测试与数据集Med-HALT(Medical Domain Hallucination Test)。该数据集包含来自多国医疗考试的多样化跨国数据，并采用多种创新测试模式。Med-HALT包含推理类和记忆类两大幻觉测试类别，旨在评估大语言模型的问题解决与信息检索能力。