• [论文翻译]BIOMEDGPT: 面向生物医学领域的开源多模态生成式预训练Transformer

    基础模型 (FMs) 在多个领域的广泛下游任务中展现出卓越性能。然而,通用基础模型在面临特定领域问题时往往存在局限性,这源于其对专有训练数据的获取受限。在生物医学领域,存在分子、蛋白质、细胞等多种生物模态,它们由生命语言编码,与人类自然语言存在显著模态差异。本文提出BioMedGPT——一个面向生物医学的开源多模态生成式预训练Transformer (GPT),旨在弥合生命语言与人类自然语言之间的鸿沟。BioMedGPT首次实现通过自由文本与多种生物模态"对话"的能力。该系统通过大语言模型BioMedGPT-LM,将不同生物模态与自然语言对齐。我们发布了BioMedGPT-10B,其通过编码和对齐技术统一了分子、蛋白质与自然语言的特征空间。经微调后,BioMedGPT-10B在生物医学问答任务上表现优于或持平人类专家,且显著超越规模更大的通用基础模型。在分子问答和蛋白质问答任务中也展现出卓越性能,有望大幅加速新药与治疗靶点的发现。此外,BioMedGPT-LM-7B是生物医学领域首个基于Llama2架构的大规模生成式语言模型,具备商业化友好特性。BioMedGPT-10B与BioMedGPT-LM-7B均已向研究社区开源。我们还发布了专为多模态对齐精心构建的数据集PubChemQA和UniProtQA。所有模型、代码及数据集详见https://github.com/PharMolix/OpenBioMed。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理