[博客翻译]过时信息如何隐藏在LLM的生成概率中并导致逻辑不一致

互联网上通常能找到正确答案，但也充斥着大量相互矛盾或过时的信息。像ChatGPT这样基于互联网规模数据训练的大型语言模型（LLM），是如何处理这些矛盾或过时信息的呢？（提示：答案并不总是截至知识截止日期的最新信息；想想LLM的训练目标是什么。）在这篇文章中，我将简要介绍一些基础知识，以便我们从基本原理出发思考这个问题，然后从GPT-2到最新的4o系列模型，逐步观察生成概率的变化。接着，我们将探讨当L...