面向任何时间有效的统计水印
大型语言模型(LLMs)的激增需要有效的机制来区分机器生成内容和人类文本。尽管统计水印已出现成为一种有希望的解决方案,但现有方法存在两个关键局限:缺乏选择抽样分布的原理性方法,以及依赖于固定时间范围的假设检验,这阻碍了有效的早期停止。在本文中,我们通过开发首个基于e值的防水印框架,即锚定E水印框架,来填补这一空白,该框架将最优抽样与任何时间有效的推理统一起来。与传统的可选停止方法不同,这些方法会使得I类错误保证失效,我们的框架通过为检测过程构建一个测试超鞅,实现了有效的、任何时间推理。通过利用锚定分布来近似目标模型,我们以最坏情况的日志增长率来表征最优e值,并推导出最优期望停止时间。我们的理论主张通过模拟和评估在建立的标准基准上的表现得到证实,表明我们的框架可以显著提高样本效率,相对于最先进的基线,检测所需的平均标记预算减少了13-15%。
赞
评论
请
登录后发表观点
