[论文翻译]论智能的衡量
为了在开发更智能、更类人的人工系统方面取得有意识的进展,我们需要遵循适当的反馈信号:必须能够以支持系统间比较及人机对比的方式定义和评估智能。过去百年间,心理学和AI领域涌现了大量定义与测量智能的尝试。我们系统梳理并批判性评估了这些定义与测评方法,同时揭示了两种隐含其中的历史性智能概念。我们注意到,当代AI社区在实践中仍倾向于通过比较AI与人类在棋盘游戏、电子游戏等特定任务中展现的技能来基准化智能水平。我们认为仅测量任务技能不足以评估智能,因为技能表现高度依赖于先验知识和经验:无限先验或无限训练数据能让实验者通过"购买"方式为系统赋予任意技能水平,从而掩盖系统自身的泛化能力。基于算法信息论,我们提出新的智能形式化定义,将智能描述为技能获取效率,并强调范围、泛化难度、先验知识和经验等核心要素在智能系统表征中的关键作用。据此定义,我们提出通用AI基准应满足的系列准则。最后,我们介绍严格遵循这些准则的新基准——抽象推理语料库(ARC),其构建基于明确设计的先验集合,这些先验尽可能接近人类先天认知模式。我们论证ARC可用于测量类人的通用流体智力,并支持AI系统与人类之间公平的通用智能比较。