AI的“思考”难题:即使是聪明的AI也会在复杂任务上犯错
AI的“思考”难题:即使是聪明的AI也会在复杂任务上犯错

嘿,朋友,你知道大家都对AI惊人的推理能力赞不绝口吗?苹果的研究人员刚刚发布了一个重磅消息。他们的新论文揭示了这些所谓的超级智能AI模型的一个惊人弱点。
他们测试了一些最流行的“大型推理模型”(LRM)——想想那些应该能够逻辑地解决复杂问题,而不仅仅是聊天的AI——与更简单的“大型语言模型”(LLM)进行了对比,比如那些擅长写作或翻译的AI。结果呢?准备惊讶吧。
研究人员使用了巧妙的谜题——想想汉诺塔,但要复杂得多——来测试AI的推理能力。他们仔细地增加了这些谜题的难度,观察AI的表现。他们发现的结果令人震惊:超过一定的点,LRM的准确性完全崩溃了!它不仅仅是变差了;而是变成了零。他们甚至发现,在某些情况下,更简单的LLM实际上胜过了那些所谓的更高级的推理模型。
为什么突然失败了?研究人员注意到,随着谜题变得越来越难,AI最初会更加努力——使用更多的“思考令牌”(基本上是计算步骤)。但在完全失败的临界点附近,AI却奇怪地减少了它的努力,即使问题越来越难!就像它们放弃了一样。
这并不是说LRM毫无用处。它们在中等复杂的问题上比LLM表现更好。但这项研究突出显示了一个关键的局限性:这些模型在处理真正复杂的任务时似乎会遇到瓶颈。“思考”功能停止工作了。
研究人员承认他们的测试使用了特定的谜题,因此结果可能并不适用于所有现实场景。尽管如此,这是一个重要的发现。它表明,目前围绕AI推理能力的炒作可能有点过分了。我们距离能够像人类一样轻松地解决科学和医学等领域真正复杂问题的AI还有很长的路要走。
所以,下次你听到关于能够解决任何问题的革命性AI时,记住这一点:即使是最聪明的AI也有其局限性,而这些局限性可能比我们想象的更近。
Read the English version (阅读英文版)
免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。