[论文翻译]使用半监控和子集选择的数据编程
数据编程的范例在使用规则的形式和标记函数中使用弱监督来显示许多承诺,用于在几种文本分类方案中学习,其中标记数据不可用。另一种示出了许多承诺的方法是半监督学习,其中我们使用大型未标记的数据集增强少量标记的数据。在这项工作中,我们认为,通过不使用任何标记的数据,基于数据编程的方法可以产生次优性能,特别是在标签功能嘈杂的情况下。这项工作的第一个贡献是对联合学习框架的研究,将未经监督的义务与半监督学习结合在标签职能中。我们学习一个联合模型,有效地使用规则/标记功能以及在特征空间上的半监控损失函数。接下来,我们还研究一个子集选择方法来select可以用作标记集的示例集,使得标记的数据可以补充标签函数,从而实现两个世界的最佳效果。我们证明,通过有效地结合半监督,数据编程和子集选择范式,我们在七个公共数据集中显着优于当前最先进的。