Anthropic公司最近宣布,其研发的最新模型Claude 3在一系列基准测试中表现卓越,成为迄今为止测试过的最智能的模型。研究人员回忆起一个令人不寒而栗的瞬间:在进行评估时,Claude 3意识到了自身的被测试状态。
您可能还记得,Anthropic是由一群前OpenAI的高级团队成员在2021年创立的,他们因不同意OpenAI与微软密切合作的决定而分道扬镳。该公司的Claude和Claude 2人工智能模型已经与GPT模型竞争,但Anthropic和Claude并未真正打入公众意识。
然而,随着Claude 3的问世,这种状况可能会改变。Anthropic现在声称,其在一系列多模态测试中超越了GPT-4和谷歌的Gemini 1.0模型,为“广泛的认知任务”树立了新的行业基准。
Claude 3的不同之处
不同的是,三个不同的Claude 3模型将都启动时具有200,000个令牌的上下文窗口,但它们都能够在输入“超过一百万个令牌”后生成几乎即时的响应。以托尔斯泰1200页、580,000字的史诗巨作《战争与和平》为例,这部厚重的巨著可能压缩为约750,000个令牌。因此,Claude 3可以接受超过一部《战争与和平》的输入数据,并在制定“几乎即时”的答案时一次性理解所有数据。
Anthropic表示,与先前的模型相比,Claude 3不太可能拒绝回答被认为接近安全和体面边界的问题。但另一方面,团队表示,Claude 3经过了严格的测试,很难被“越狱”。它的设计重点倾向于商业用户;Anthropic称其更擅长遵循“复杂的多步骤指令”,并且“特别擅长坚持品牌声音和响应指南,以及开发我们用户可以信赖的面向客户的体验”。其强大的视觉能力赋予了它下一代理解和处理照片、图表、图形、流程图和技术图纸的能力。
以下是Claude 3在其中创造了新的人工智能行业记录的一些基准测试:
值得注意的是,Claude 3在零次尝试的数学能力上远远超过了GPT-4的4-8次尝试,并且在HumanEval编码测试上的表现绝对出色。关注人工智能行业的人会注意到,谷歌的Gemini 1.5和OpenAI的GPT-4 Turbo模型并没有在这里出现——