大型语言模型(LLM)近来备受关注。然而,它们存在严重的局限性:幻想、缺乏置信度估计和缺乏引用。
幻觉是指LLM生成看似合理甚至有说服力的内容,但实际上毫无根据或错误。
置信度估计为预测分配一个置信分数,有助于判断其准确性。错误答案的高置信分数比完全没有分数更糟糕……这可能是它们在商业产品中鲜见的原因。尽管OpenAI在这方面有所尝试(链接:https://openai.com/index/teaching-models-to-express-their-uncertainty-in-words/)。
引用则是文本基于的来源,通过所谓的RAG技术(通过文本语料库搜索,希望找到相关文档并加入查询,成为引用),可以实现。 perplexity.ai和[wikichat.genie.stanford.edu](https://wikichat genie.stanford.edu/)是良好示例。
理想的LLM聊天机器人应解决这三项局限。那么,实现它们的可能路径是什么?
幻觉无疑是最大的挑战,良好的置信度估计和可靠引用仅能稍微缓解其负面影响。
**训练数据中的逻辑矛盾。LLM无法自我检查训练数据中的逻辑不一致性,但在输入上下文中,它们应