[论文翻译]基于个体特异性数据的健康多模态大语言模型
基础大语言模型(LLM)已展现出解决包括健康领域在内的广泛任务的卓越能力。为有效解决个性化健康任务,大语言模型需具备处理与个体健康状况相关的多种数据模态的能力。本文通过开发HeLM框架(Health Large Language Model for Multimodal Understanding),朝着创建基于个体特异性数据的健康多模态大语言模型迈出重要一步。该框架使大语言模型能够利用高维临床模态数据评估潜在疾病风险:HeLM通过训练编码器将复杂数据模态映射至大语言模型的token嵌入空间,对表格数据等简单模态则采用文本序列化处理。基于英国生物银行(UK Biobank)数据,我们证明HeLM能有效结合人口统计学特征、临床特征和高维时间序列数据进行疾病风险评估。例如在哮喘预测中,结合表格数据和呼吸曲线数据的HeLM模型AUROC达到0.75,而仅使用表格数据时为0.49。总体而言,HeLM在八项二元性状预测任务中均优于或持平传统机器学习方法。此外,我们探究了该模型的下游应用潜力,包括其对分布外性状的泛化能力,以及支持个性化健康对话的能力。