OpenAI最近发布的技术报告揭示了GPT-4o更新后变得“谄媚”的原因。报告指出,问题出在“强化学习”上,上次更新引入了一个基于用户反馈的额外奖励信号,即对ChatGPT的点赞或点踩。虽然这个信号通常很有用,但可能使模型逐渐倾向于做出更令人愉快的回应。此外,用户记忆在某些情况下也可能加剧奉承行为的影响。OpenAI认为一些单独看可能对改进模型有益的举措,结合起来后却共同导致了模型变得“谄媚”。为了解决这一问题,OpenAI采取了多项措施,包括改进核心训练技术和系统提示,建立更多“护栏”以提高诚实性和透明度,让更多用户在部署之前进行测试并提供直接反馈,以及继续扩大评估范围。OpenAI还表示,接下来会改进流程中的多个方面,如调整安全审查流程、引入“Alpha”测试阶段、重视抽样检查和交互式测试、改进离线评估和A/B实验、加强模型行为原则的评估,以及更主动地沟通。
1
评论
请
登录后发表观点