[论文翻译]大语言模型是否已为医疗保健做好准备?临床语言理解的对比研究
大语言模型 (LLMs) 在医疗保健等多个领域取得了显著进展。然而,临床语言理解任务的专业性带来了独特的挑战与限制,需要进一步研究。本研究对GPT-3.5、GPT4和Bard等前沿大语言模型在临床语言理解任务领域进行了全面评估,涵盖命名实体识别、关系抽取、自然语言推理、语义文本相似度、文档分类和问答等多种任务。我们还提出了一种新型提示策略——自我提问提示 (SQP),通过生成与当前临床场景相关的信息性问题与答案来提升大语言模型性能。评估结果表明,采用任务专用学习策略和提示技术(如SQP)对最大化大语言模型在医疗相关任务中的效能至关重要。本研究强调在医疗场景中需谨慎部署大语言模型,必须与领域专家协同合作并持续接受人工专家验证,从而实现负责任且有效的应用,最终提升患者护理质量。代码已开源:https://github.com/EternityYW/LLM_healthcare。