大型语言模型中的金融智能评估：使用LLM引擎对超级投资AI进行基准测试

大型语言模型越来越多地被用于财务分析和投资研究，但对其财务推理能力的系统性评估仍然有限。在本研究中，我们引入了人工智能财务智能基准测试（AFIB），这是一个多维度评估框架，旨在评估五个维度上的财务分析能力：事实准确性、分析完整性、数据时效性、模型一致性和失败模式。我们使用真实股权研究任务的95个以上结构化财务分析问题数据集，评估了五个人工智能系统：GPT、Gemini、Perplexity、Claude和SuperInvesting。结果显示了模型之间性能的实质性差异。在本基准测试框架中，SuperInvesting实现了最高的综合性能，事实准确性平均得分为8.96/10，完整性得分最高为56.65/70，同时在所评估系统中展示了最低的幻觉率。以检索为导向的系统，如Perplexity，由于具有实时信息访问，在数据时效性任务上表现强劲，但在分析综合和一致性方面表现较弱。总体而言，结果突出表明大型语言模型中的财务智能本质上是多维度的，将结构化财务数据访问与分析推理能力相结合的系统为复杂投资研究工作流程提供最可靠的性能。