[论文翻译]Med-BERT: 基于大规模结构化电子健康记录预训练的上下文嵌入用于疾病预测
背景:基于电子健康记录(EHR)的深度学习(DL)预测模型在许多临床任务中表现良好。然而,通常需要大量训练队列才能实现高精度,这阻碍了基于DL的模型在训练数据规模有限场景中的应用。近年来,来自Transformer的双向编码器表示(BERT)及相关模型在自然语言处理(NLP)领域取得了巨大成功。BERT在超大规模训练语料上的预训练能生成情境化嵌入,通过微调可应用于较小数据集,从而显著提升这些数据集的性能。由于EHR数据与文本数据具有相似性(两者都是基于大词汇表的序列数据),我们探索这种"预训练-微调"范式是否能提升基于EHR的预测建模性能...