OpenAI近日发布了MRCR基准测试,旨在评估AI模型在超长上下文中的信息处理能力。与传统的“大海捞针”测试不同,MRCR要求模型在大量文本中区分并找到多个相同的“针”中的特定一个,难度极大。GPT-4.1在此测试中表现出色,能够在100万个tokens的上下文中准确检索信息。MRCR不仅揭示了当前AI的能力边界,还推动了更强大、更可靠模型的研发。这一测试为AI模型设置了新的挑战,帮助研究者更好地理解模型的强项和弱点,促进技术的进步和审慎应用。
赞
评论
请
登录后发表观点