控制向量 - 标签内容 | AI千集 — AI角色定制平台

[博客翻译]表示工程: Mistral-7B的迷幻之旅

在2023年10月，一批来自人工智能安全中心的研究者们联合发布了一篇名为《表示工程：一种实现AI透明度的自顶向下方法》的论文。该研究探讨了“表示工程”的几种方法，即计算一个“控制向量”，在推理过程中可以直接读取或添加到模型激活中，以解读或控制模型的行为，无需进行提示工程或微调（与此相似的工作也在2023年5月关于引导GPT-2-XL的研究中有过报道）。

由 openoker发布于 2024-02-18 14:26:38 控制向量阅读次数 2736