反驳挑战苹果公司关于大型语言模型中“推理崩溃”的说法

反驳挑战苹果公司关于大型语言模型中“推理崩溃”的说法

反驳挑战苹果公司关于大型语言模型中“推理崩溃”的说法

Rebuttal Challenges Apple's
Rebuttal Challenges Apple’s “Reasoning Collapse” Claim in Large Language Models

苹果公司最近的研究报告“思维的错觉”断言,即使是先进的大型推理模型(LRM)在复杂任务上也会失败,这在人工智能研究界引发了相当大的争议。Open Philanthropy的Alex Lawsen与Anthropic的Claude Opus模型合作撰写的一篇详细的反驳文章对这一结论提出了挑战,认为原论文的发现很大程度上是由于实验设计缺陷,而不是LRM推理能力的固有局限性。

Lawsen的反驳文章,题为“思维错觉的错觉”,并没有否认LRM在复杂规划方面面临的挑战。相反,它认为苹果的研究将实际输出限制和有缺陷的评估方法与真正的推理失败混为一谈。反驳文章重点突出了三个关键问题:

首先,Lawsen指出,苹果的解释忽略了标记预算限制。在汉诺塔难题中,苹果声称模型在8个以上棋盘时“崩溃”,而像Claude这样的模型已经达到了其标记输出限制,明确表明它们由于资源限制而无法继续。这表明,所谓的失败是输出限制的结果,而不是推理能力不足。

其次,反驳文章批评了苹果的渡河测试中包含不可解的谜题实例。模型因正确识别并拒绝解决这些不可能的场景而受到惩罚,这歪曲了它们的实际推理能力。这突出了实验设计中的一个重大缺陷,即未能解决的问题被混淆为无法推理。

第三,Lawsen反对苹果的自动化评估流程,该流程仅根据完整的移动列表来判断模型。这种方法不公平地惩罚了生成部分或策略性解决方案的模型,未能考虑由于标记限制造成的输出截断。严格的评估标准掩盖了模型的底层推理过程。

为了支持他的说法,Lawsen重新运行了一部分汉诺塔测试,要求模型生成递归Lua函数而不是完整的移动列表。这种替代方法为15个棋盘的问题提供了成功的解决方案,大大超过了苹果报告完全失败的复杂程度。这表明,当去除人工输出限制时,LRM在复杂推理方面表现出更大的能力,至少在算法生成方面是如此。

这场辩论的影响超出了典型的研究挑剔。苹果最初的论文已被广泛引用为LLM推理能力存在根本性局限性的证据,这是一种可能具有误导性的解释。Lawsen的反驳文章表明了一个更为细致的现实:虽然LLM在当前部署约束下可能难以进行长格式标记枚举,但它们的底层推理机制可能比最初认为的更强大。

虽然Lawsen的发现并没有完全为LRM开脱——真正的算法泛化仍然是一个挑战——但它们强调了严格评估方法的重要性。他为未来的研究提出了几项改进建议,包括设计能够区分推理能力和输出限制的评估方法,验证谜题的可解性,使用反映计算难度的复杂性指标,以及考虑多种解决方案表示。最终,问题不在于LRM能否推理,而在于我们的评估是否准确地衡量了它们的推理能力。

Read the English version (阅读英文版)

免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。

Comments are closed.