一次对齐,多语言受益:强制实施LLM安全对齐的多语言一致性
在大语言模型(LLMs)在语言社区中得到广泛应用的情况下,需要对多语言进行可靠的安全对齐。然而,将安全对齐扩展到其他语言的近期努力往往需要大量的资源,无论是通过在目标语言中进行大规模、高质量的监督,还是通过与资源丰富的语言进行成对对齐,这限制了可扩展性。在这项工作中,我们提出了一种资源高效的方法来改进多语言安全对齐。我们引入了一种即插即用的多语言一致性(MLC)损失,它可以集成到现有的单语对齐管道中。通过提高多语言表示向量之间的共线性,我们的方法在单个更新中鼓励多语言语义层面的方向一致性。这允许使用仅多语言提示变体即可在多个语言中进行同时对齐,而无需在低资源语言中提供额外的响应级监督。我们在不同的模型架构和对齐范式上验证了所提出的方法,并证明了它在增强多语言安全方面的有效性,同时对一般模型效用的影响有限。在语言和任务上的进一步评估表明,跨语言泛化能力得到提高,这表明所提出的方法是有限监督下实现多语言一致性对齐的实用解决方案。
赞
评论
请
登录后发表观点
