[博客翻译]被LLM杀死
AI里程碑纪念:那些定义并被AI进步所击败的基准测试
在人工智能发展的历程中,有许多重要的基准测试帮助我们衡量和理解AI的能力。随着时间的推移,这些基准测试逐渐被现代语言模型(LLM)超越,标志着技术的巨大进步。以下是一些重要的基准测试及其被击败的历史。
抽象推理挑战(ARC-AGI)
时间范围:2019 - 2024
描述:由François Chollet设计,包含一系列抽象视觉模式完成任务。每个任务展示一组抽象的视觉模式,并要求选择正确的完成方式。
结果:被O3模型以87.5%的得分击败,...