[论文翻译]BIOMEDGPT: 面向生物医学领域的开源多模态生成式预训练Transformer

基础模型 (FMs) 在多个领域的广泛下游任务中展现出卓越性能。然而，通用基础模型在面临特定领域问题时往往存在局限性，这源于其对专有训练数据的获取受限。在生物医学领域，存在分子、蛋白质、细胞等多种生物模态，它们由生命语言编码，与人类自然语言存在显著模态差异。本文提出BioMedGPT——一个面向生物医学的开源多模态生成式预训练Transformer (GPT)，旨在弥合生命语言与人类自然语言之间的鸿沟。BioMedGPT首次实现通过自由文本与多种生物模态"对话"的能力。该系统通过大语言模型BioMedGPT-LM，将不同生物模态与自然语言对齐。我们发布了BioMedGPT-10B，其通过编码和对齐技术统一了分子、蛋白质与自然语言的特征空间。经微调后，BioMedGPT-10B在生物医学问答任务上表现优于或持平人类专家，且显著超越规模更大的通用基础模型。在分子问答和蛋白质问答任务中也展现出卓越性能，有望大幅加速新药与治疗靶点的发现。此外，BioMedGPT-LM-7B是生物医学领域首个基于Llama2架构的大规模生成式语言模型，具备商业化友好特性。BioMedGPT-10B与BioMedGPT-LM-7B均已向研究社区开源。我们还发布了专为多模态对齐精心构建的数据集PubChemQA和UniProtQA。所有模型、代码及数据集详见https://github.com/PharMolix/OpenBioMed。

由 Ylong发布于 2025-04-16 22:48:47 FMs大语言模型生物医学阅读次数 523