智能 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]论智能的衡量标准

为了朝着更智能、更类人的人工系统方向取得有意识的进展，我们需要遵循适当的反馈信号：必须以能够比较两个系统以及与人类进行比较的方式定义和评估智能。过去一百年间，心理学和AI领域涌现了大量定义与测量智能的尝试。我们总结并批判性评估了这些定义和评估方法，同时揭示了隐含指导它们的两种历史性智能概念。我们注意到，在实践中，当代AI社区仍倾向于通过比较AI与人类在特定任务（如棋盘游戏和电子游戏）中展现的技能来基准测试智能。我们认为仅测量任何给定任务的技能不足以衡量智能，因为技能高度受先验知识和经验调节：无限的先验或训练数据允许实验者以掩盖系统自身泛化能力的方式为系统"购买"任意水平的技能。接着，我们基于算法信息论提出了一个新的智能形式化定义，将智能描述为技能获取效率，并强调范围、泛化难度、先验和经验等概念是表征智能系统的关键要素。基于此定义，我们提出了一套通用AI基准应遵循的准则。最后，我们介绍了一个紧密遵循这些准则的新基准——抽象与推理语料库(ARC)，它建立在显式先验集合之上，这些先验被设计为尽可能接近人类与生俱来的先验。我们认为ARC可用于测量类人的通用流体智能，并实现AI系统与人类之间公平的通用智能比较。

由 Ylong发布于 2025-04-03 12:53:31 智能AI 阅读次数 1409