近来,大语言模型(LLM)在自然语言理解方面展现出卓越能力。尽管在日常对话和问答场景中表现优异,这些模型由于缺乏领域专业知识,在医疗等需要精准性的领域往往表现不佳。本文阐述了构建专为医疗应用设计的强大开源语言模型PMC-LLaMA的全过程。我们的贡献包含三个方面:(i) 系统研究了通用基础语言模型向医疗领域的适配过程,通过整合480万篇生物医学学术论文和3万本医学教材实现以数据为中心的知识注入,并执行全面的领域指令微调对齐;(ii) 贡献了大规模指令微调数据集,包含医疗问答(QA)、推理依据和对话内容,总计2.02亿token;(iii) 通过详尽的消融实验验证了各模块的有效性。在多个公共医疗问答基准测试中,我们仅含130亿参数的轻量级PMC-LLaMA展现出超越ChatGPT的优异性能。所有模型、代码和数据集详见https://github.com/chaoyi-wu/PMC-LLaMA。