[论文翻译]有限标签下的场景图预测

视觉知识库（如Visual Genome）为计算机视觉中的众多应用（包括视觉问答和图像描述）提供了支持，但其关系标注稀疏且不完整。迄今为止，所有场景图模型都局限于在少量视觉关系上进行训练，每种关系仅有数千个训练标签。雇佣人工标注成本高昂，而基于文本的知识库补全方法又与视觉数据不兼容。本文提出一种半监督方法，通过少量标注样本为大量未标注图像分配概率关系标签。我们通过分析视觉关系，提出两种与图像无关的特征来生成噪声启发式规则，并利用基于因子图的生成模型聚合输出结果。