抽象推理语料库 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]论智能的衡量

为了在开发更智能、更类人的人工系统方面取得有意识的进展，我们需要遵循适当的反馈信号：必须能够以支持系统间比较及人机对比的方式定义和评估智能。过去百年间，心理学和AI领域涌现了大量定义与测量智能的尝试。我们系统梳理并批判性评估了这些定义与测评方法，同时揭示了两种隐含其中的历史性智能概念。我们注意到，当代AI社区在实践中仍倾向于通过比较AI与人类在棋盘游戏、电子游戏等特定任务中展现的技能来基准化智能水平。我们认为仅测量任务技能不足以评估智能，因为技能表现高度依赖于先验知识和经验：无限先验或无限训练数据能让实验者通过"购买"方式为系统赋予任意技能水平，从而掩盖系统自身的泛化能力。基于算法信息论，我们提出新的智能形式化定义，将智能描述为技能获取效率，并强调范围、泛化难度、先验知识和经验等核心要素在智能系统表征中的关键作用。据此定义，我们提出通用AI基准应满足的系列准则。最后，我们介绍严格遵循这些准则的新基准——抽象推理语料库(ARC)，其构建基于明确设计的先验集合，这些先验尽可能接近人类先天认知模式。我们论证ARC可用于测量类人的通用流体智力，并支持AI系统与人类之间公平的通用智能比较。

由卡汁发布于 2025-04-12 21:20:49 抽象推理语料库AIARC 审核中阅读次数 16