[论文翻译]基于检索的可控分子生成
通过生成式模型创造具有特定化学和生物特性的新分子,已成为药物发现领域的一个前景广阔的方向。然而,现有方法需要大量数据集进行长时间训练/微调,而这在实际生成任务中往往难以获取。本研究提出了一种基于检索的可控分子生成新框架。我们利用少量示例分子(即那些(部分)满足设计标准的分子)来引导预训练生成模型合成符合给定设计要求的分子。我们设计了一种检索机制,能够检索输入分子并与之融合示例分子,该机制通过一种新的自监督目标进行训练,即预测输入分子的最近邻。此外,我们还提出了一种迭代优化流程,动态更新生成分子和检索数据库以实现更好的泛化能力。本方法不依赖于特定生成模型的选择,且无需针对任务进行微调。在从简单设计标准到设计结合SARS-CoV-2主要蛋白酶的先导化合物这一具有挑战性的现实场景等多种任务中,我们的方法展现出远超检索数据库的外推能力,并取得了优于以往方法的性能和更广泛的适用性。