先进推理AI模型的准确性崩溃:苹果研究揭示了局限性
先进推理AI模型的准确性崩溃:苹果研究揭示了局限性

苹果机器学习研究团队近期发表的一项研究挑战了关于高级推理人工智能 (AI) 模型能力的普遍说法。该研究揭示了一个显著的局限性:尽管这些模型很复杂,但在面对越来越复杂的问题时,它们会经历“完全准确性崩溃”。
这项研究关注几个旨在进行推理的著名大型语言模型 (LLM),包括 OpenAI 的 o3、DeepSeek 的 R1、Meta 的 Claude、Anthropic 的 Claude 3.7 Sonnet 和 Google 的 Gemini。这些模型利用“思维链”过程来提高准确性,并在具有不同复杂程度的经典难题上进行了测试。“思维链”方法涉及用清晰的语言仔细地概述推理过程,以便更好地观察和评估。
虽然推理模型在中等复杂的任务上优于通用 LLM,但研究人员发现了一个临界点,超过这个临界点,它们的准确性会急剧下降。研究人员观察到,随着复杂性的增加,模型分配给解决问题的计算资源(token)减少,这表明在维持思维链过程中存在根本性限制。即使提供了解决方案算法,这种“准确性崩溃”也会发生。
这一发现与一些科技公司声称这些模型即将实现人工通用智能 (AGI) 的说法相矛盾。该研究强调,这些模型严重依赖模式识别,而不是真正的涌现逻辑,这是在关于 AGI 的讨论中经常被忽视的一个关键区别。
苹果的研究还指出,随着推理模型复杂性的增加,“幻觉”——生成错误或虚假信息——的情况令人担忧地增多。这与 OpenAI 此前的报告相符,该报告记录了其更先进的 o3 和 o4-mini 模型与早期迭代相比,幻觉率显著提高。
研究人员承认他们的研究存在局限性,并指出所使用的难题只代表一部分可能的推理任务。然而,这些发现为了解当前推理 AI 模型的固有局限性提供了宝贵的见解,并对对其能力过于乐观的预测提出了警告。该研究强调需要更强大的评估范式,这些范式需要超越已建立的基准,因为已建立的基准通常存在数据污染和缺乏受控实验条件的问题。
这项研究的发表引发了人工智能界的辩论。一些人指责苹果“酸葡萄心理”,因为其在大语言模型领域进展相对较慢;另一些人则赞扬这项研究为当前人工智能能力提供了急需的批判性分析。这些发现强调了对先进人工智能系统的真正潜力和局限性进行严格科学研究的重要性,从而促进了对其当前状态和未来前景更现实、更细致的理解。
Read the English version (阅读英文版)
免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。