[论文翻译]基于逐点V信息的选择性上下文数据增强在意图检测中的应用
本研究专注于意图检测的上下文数据增强。我们发现仅通过大型预训练语言模型(PLM)的上下文提示进行增强无法提升性能,因此提出了一种基于PLM和点式V信息(PVI)的新方法——PVI是一种能衡量数据点对模型训练有用性的指标。该方法首先在小规模种子训练数据上微调PLM,随后合成新数据点(即对应给定意图的话语),并基于PVI进行意图感知过滤,以剔除对下游意图分类器无益的数据点。通过这种方式,我们的方法能够利用大语言模型的表达能力生成多样化训练数据。实验结果表明:在少样本场景下(5-shot绝对提升1.28%,10-shot平均提升1.18%),本方法生成的合成训练数据能在三个高难度意图检测数据集上达到最先进性能;在全样本场景下(平均绝对差异0.01%以内)与当前最优方法表现相当。