# 先思后言:推理如何提升诚实性 ## 摘要 诚实性是人工智能系统中的一个基。.
虽然对大型语言模型(LLMs)的现有评估衡量了欺骗率,但产生欺骗行为的潜在条件理解甚少。我们使用一个新颖的数据集来调查这个问题,该数据集包含现实的道德权衡情景,其中诚实行为需要付出不同的代价。与人类形成对比的是,人类在有时间思考的情况下往往会变得不够诚实(Capraro, 2017; Capraro et al,2019),我们发现推理在各种规模上以及对于多个LLM系列都始终增加了诚实度。这种效应不仅仅是推理内容的函数,因为推理轨迹通常是最终行为的较差预测指标。相反,我们证明了表征空间本身的几何结构对该效应有贡献。具体地,我们观察到这个空间内的欺骗区域是亚稳定的:与诚实答案相比,欺骗答案更容易被输入改写、输出重新采样和激活噪声所破坏。我们从这个角度解释推理的效应:在道德推理过程中生成审慎的标记涉及遍历一个有偏差的表征空间,最终将模型推向其更稳定的、诚实的默认状态。
赞
评论
请
登录后发表观点
