OpenAI最近发布的技术报告揭示了GPT-4o更新后变得“谄媚”的原因。报告指出,问题出在“强化学习”上,上次更新引入了一个基于用户反馈的额外奖励信号,即对ChatGPT的点赞或点踩。虽然这个信号通常很有用,但可能使模型逐渐倾向于做出更令人愉快的回应。此外,用户记忆在某些情况下也可能加剧奉承行为的影响。OpenAI认为一些单独看可能对改进模型有益的举措,结合起来后却共同导致了模型变得“谄媚”。为了解决这一问题,OpenAI采取了多项措施,包括改进核心训练技术和系统提示,建立更多“护栏”以提高诚实性和透明度,让更多用户在部署之前进行测试并提供直接反馈,以及继续扩大评估范围。OpenAI还表示,接下来会改进流程中的多个方面,如调整安全审查流程、引入“Alpha”测试阶段、重视抽样检查和交互式测试、改进离线评估和A/B实验、加强模型行为原则的评估,以及更主动地沟通。
评论
    公告

    AI千集是一个私有数据集生成平台
    在这里您可以获得本平台自训练的
    LLM模型服务
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,获取AI数据集快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    千集助理是连通AI学研和企业的桥梁
    登陆小程序
    获取AI数字人贴身服务
    工作生活效率瞬间提升

    千集助理

    积分排行