# 面向可证明无偏的LLM评判器：偏差有界评估 ## 摘要大型语言模型（LLM）已。.

随着人工智能模型从简单聊天机器人发展到更复杂的工作流程，我们逐渐接近一个事件地平线，超越这个地平线之后，人工智能系统将被应用于自主的、自我维持的反馈循环中。任何自主人工智能系统都将依赖于自动化、可验证的奖励和反馈；在基准事实稀缺或非确定性的环境中，一个实用的奖励来源是将大语言模型用作评判者（LLM-as-a-Judge）。尽管LLM评判者继续改进，但文献中尚未引入能够以强有力保证执行标准的系统，特别是在偏差向量未知或被对抗性发现的情况下。为了解决这一问题，我们提出了平均偏差界限性（Average Bias-Boundedness, A-BB），这是一个算法框架，可以正式保证减少由LLM评判者中任何可测量偏差造成的伤害/影响。在Arena-Hard-Auto上使用四个LLM评判者进行评估，我们在格式和概念偏差设置中实现了（τ=0.5, δ=0.01）偏差界限保证，同时保留了与原始排名61-99%的相关性，大多数评判者-偏差组合超过80%。再现我们研究结果的代码可在

# 面向可证明无偏的LLM评判器：偏差有界评估 ## 摘要 大型语言模型（LLM）已。.

# 面向可证明无偏的LLM评判器：偏差有界评估 ## 摘要大型语言模型（LLM）已。.