# 面向可证明无偏的LLM评判器:偏差有界评估 ## 摘要 大型语言模型(LLM)已。.

随着人工智能模型从简单聊天机器人发展到更复杂的工作流程,我们逐渐接近一个事件地平线,超越这个地平线之后,人工智能系统将被应用于自主的、自我维持的反馈循环中。任何自主人工智能系统都将依赖于自动化、可验证的奖励和反馈;在基准事实稀缺或非确定性的环境中,一个实用的奖励来源是将大语言模型用作评判者(LLM-as-a-Judge)。尽管LLM评判者继续改进,但文献中尚未引入能够以强有力保证执行标准的系统,特别是在偏差向量未知或被对抗性发现的情况下。为了解决这一问题,我们提出了平均偏差界限性(Average Bias-Boundedness, A-BB),这是一个算法框架,可以正式保证减少由LLM评判者中任何可测量偏差造成的伤害/影响。在Arena-Hard-Auto上使用四个LLM评判者进行评估,我们在格式和概念偏差设置中实现了(τ=0.5, δ=0.01)偏差界限保证,同时保留了与原始排名61-99%的相关性,大多数评判者-偏差组合超过80%。再现我们研究结果的代码可在
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行