Browsed by
Tag: AI Puzzle Solving

苹果研究揭示大型语言模型推理的局限性:批判性分析

苹果研究揭示大型语言模型推理的局限性:批判性分析

苹果研究揭示大型语言模型推理的局限性:批判性分析

Architect meticulously working on a detailed scale model with compass and ruler.
Architect meticulously working on a detailed scale model with compass and ruler.

苹果研究人员最近的一项研究挑战了围绕大型语言模型 (LLM) 推理能力的普遍说法。这项名为“思维的错觉:通过问题复杂性的视角理解推理模型的优势和局限性”的研究,严格调查了模拟推理 (SR) 模型的性能,包括OpenAI的o1ando3、DeepSeek-R1和Claude 3.7 Sonnet Thinking等知名例子,在经典解谜任务上的表现。

这项研究采用了一种新颖的方法,在不同复杂程度的四个经典谜题——汉诺塔、跳棋、过河卒和积木世界——上测试LLM。与仅关注最终答案准确性的传统评估不同,苹果团队仔细分析了模型的推理过程,观察了它们在这些谜题的简单和极其复杂的迭代中的表现。结果显示,在需要扩展系统推理的问题上,性能显著下降。在近200次新的数学证明尝试中,模型的得分大多低于5%,只有一个模型达到了25%的准确率。这与美国数学奥林匹克竞赛 (USAMO) 进行的类似研究结果相符。

苹果研究人员的发现证实了像加里·马库斯这样的AI怀疑论者长期以来的论点,他一直强调神经网络在处理分布外泛化方面的局限性。马库斯将苹果的研究结果描述为“对LLM相当具有破坏性”,强调模型无法可靠地解决甚至像汉诺塔这样相对简单的谜题,而这个问题早在1957年就已通过算法解决。这项研究进一步强调了一个反直觉的观察结果:向模型提供明确的算法并没有提高它们的性能,这表明缺乏真正的逻辑推理。

这项研究还揭示了模型失效中有趣的不一致性。例如,Claude 3.7 Sonnet在汉诺塔游戏中能够执行多达100个正确的移动,但在一个不太复杂的过河卒游戏中却在只有5步之后就失败了。这表明任务特定的局限性,而不是纯粹的计算限制。研究人员还发现了一个“反直觉的缩放极限”,即随着问题复杂性的增加,最初会导致推理工作量的增加,但在超过某个阈值后,即使有足够的计算资源,工作量也会减少。

然而,这项研究的解释并没有得到普遍接受。凯文·A·布莱恩等批评者认为,观察到的局限性可能源于旨在优化计算效率而非固有推理缺陷的故意训练约束。布莱恩认为,训练中使用的强化学习 (RL) 技术可能会鼓励模型优先考虑近似解而不是穷举推理,以避免过度计算。软件工程师肖恩·戈德克也表达了类似的观点,他认为模型在复杂任务(例如超过1000步的汉诺塔)上的失败可能反映出避免计算密集型方法的战略决策,而不是无法解决问题。

围绕使用基于谜题的评估来评估LLM推理能力的适当性,也存在进一步的质疑。独立AI研究员西蒙·威利森质疑此类任务的适用性,认为观察到的失败可能归因于上下文窗口内的标记限制,而不是根本的推理缺陷。他告诫不要过度解读结果,强调基于谜题的方法的范围狭窄及其对现实世界场景的适用性有限。

苹果研究人员自己也承认了他们研究的局限性,强调所选择的谜题环境只代表推理任务的一个狭窄子集。虽然这项研究突出了当前LLM推理能力的重大局限性,但它也承认模型在特定应用中的效用以及它们在“中等复杂性”范围内的性能改进。然而,结果引发了关于LLM发展当前轨迹的关键问题,并表明需要采用根本不同的方法来实现更强大的推理能力。

总之,苹果的研究以及USAMO的研究结果,都对当前LLM真正“推理”的程度提出了质疑。虽然并没有完全否定它们的效用,但这项研究强调了这些模型对复杂模式匹配而非系统推理的依赖,促使人们重新评估营销声明,并呼吁对它们的优势和局限性进行更透明和细致的理解。围绕LLM能力的争论仍在继续,这突显了对持续研究和批判性评估这些快速发展的技术的必要性。

Read the English version (阅读英文版)

免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。