# 先思后言：推理如何提升诚实性 ## 摘要诚实性是人工智能系统中的一个基。.

虽然对大型语言模型(LLMs)的现有评估衡量了欺骗率，但产生欺骗行为的潜在条件理解甚少。我们使用一个新颖的数据集来调查这个问题，该数据集包含现实的道德权衡情景，其中诚实行为需要付出不同的代价。与人类形成对比的是，人类在有时间思考的情况下往往会变得不够诚实(Capraro, 2017; Capraro et al，2019)，我们发现推理在各种规模上以及对于多个LLM系列都始终增加了诚实度。这种效应不仅仅是推理内容的函数，因为推理轨迹通常是最终行为的较差预测指标。相反，我们证明了表征空间本身的几何结构对该效应有贡献。具体地，我们观察到这个空间内的欺骗区域是亚稳定的：与诚实答案相比，欺骗答案更容易被输入改写、输出重新采样和激活噪声所破坏。我们从这个角度解释推理的效应：在道德推理过程中生成审慎的标记涉及遍历一个有偏差的表征空间，最终将模型推向其更稳定的、诚实的默认状态。