[博客翻译]表示工程: Mistral-7B的迷幻之旅 在2023年10月,一批来自人工智能安全中心的研究者们联合发布了一篇名为《表示工程:一种实现AI透明度的自顶向下方法》的论文。该研究探讨了“表示工程”的几种方法,即计算一个“控制向量”,在推理过程中可以直接读取或添加到模型激活中,以解读或控制模型的行为,无需进行提示工程或微调(与此相似的工作也在2023年5月关于引导GPT-2-XL的研究中有过报道)。 由 openoker发布于 2024-02-18 14:26:38 控制向量 阅读次数 1532