# OfficeQA Pro：企业端到端基础推理基准 ## 摘要 We introduce OfficeQA Pro, a comprehens。.

我们介绍了OfficeQA Pro，一个用于评估AI代理在大规模异构文档语料库上进行有根据的多文档推理能力的基准。该语料库包含跨越近100年的美国财政部公报，共89,000页和超过2,600万个数值。OfficeQA Pro包含133个问题，这些问题要求在非结构化文本和表格数据上进行精确的文档解析、检索和分析推理。包括Claude Opus 4.6、GPT-5.4和Gemini 3.1 Pro Preview在内的前沿大语言模型在仅依赖参数化知识时在OfficeQA Pro上的准确率低于5%，在额外获得网络访问权限的情况下低于12%。当直接提供文档语料库时，前沿代理在超过一半的问题上仍然表现不佳，平均得分为34.1%。我们发现，为代理提供由Databricks' ai_parse_document生成的结构化文档表示会产生16.1%的平均相对性能增益。我们进行了额外的消融研究，以研究模型选择、表格表示、检索策略和测试时间缩放对性能的影响。尽管取得了这些改进，但在代理被认为可靠地进行企业级有根据推理之前，仍有显著的改进空间。