Browsed by
Tag: Apple AI Research

苹果研究人员挑战大型语言模型的“推理”能力

苹果研究人员挑战大型语言模型的“推理”能力

苹果研究人员挑战大型语言模型的“推理”能力

Scrabble game spelling 'CHATGPT' with wooden tiles on textured background.
Scrabble game spelling ‘CHATGPT’ with wooden tiles on textured background.

苹果公司最近发表的一篇研究论文对领先的大型语言模型(LLM)广为宣传的“推理”能力提出了质疑。该研究由苹果机器学习专家团队撰写,其中包括人工智能和机器学习研究总监Samy Bengio,挑战了OpenAI、Anthropic和谷歌等公司关于OpenAI的GPT-3、Anthropic的Claude 3.7和谷歌的Gemini等模型先进推理能力的声明。

研究人员认为,业界对LLM推理能力的评估被严重夸大了,将其描述为“思维的错觉”。他们的分析重点关注用于对这些模型进行基准测试的方法,强调了数据污染以及缺乏对推理过程的结构和质量的深入了解的问题。苹果团队使用“可控的谜题环境”进行了广泛的实验,以评估这些模型的实际推理能力。

结果揭示了一个令人担忧的趋势:LLM在超过一定复杂性阈值后,“准确性完全崩溃”。这篇论文将这种现象描述为“过度思考”,它表明即使有足够的数据和计算资源,推理准确性也会下降。这一发现与更广泛的观察结果相符,这些观察结果表明,新一代推理模型更容易出现幻觉,这表明当前开发方法存在潜在的局限性。

苹果的研究人员进一步强调了LLM解决问题方法中的不一致性。他们发现,这些模型缺乏使用显式算法的能力,并且在类似的谜题中表现出不一致的推理能力。研究团队得出结论,他们的发现对当前LLM的真实推理能力提出了关键性问题,特别是考虑到为其开发投入了大量的资金和计算能力。

这项研究增加了围绕当前LLM技术局限性的日益激烈的争论。虽然各公司仍在大力投资开发功能越来越强大的模型,但苹果的发现表明,在实现真正通用的推理能力方面仍然存在根本性挑战。这项研究的影响意义重大,特别是对于LLM在各个领域的未来发展和应用。

鉴于苹果公司在将AI集成到其消费产品方面相对谨慎的做法,这项出版物的时机也值得注意。虽然该公司承诺提供一套苹果智能工具,但这项研究可以被解释为对当前技术状态的谨慎评估,表明可能需要重新评估整个AI行业的现有开发策略。

Read the English version (阅读英文版)

免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。

苹果的“思维幻象”:揭露当前AI推理模型的局限性

苹果的“思维幻象”:揭露当前AI推理模型的局限性

苹果的“思维幻象”:揭露当前AI推理模型的局限性

Apple's
Apple’s “Illusion of Thinking”: Exposing the Limitations of Current AI Reasoning Models

苹果公司最近发表了一篇题为“思维的幻象”(The Illusion of Thinking)的研究论文,挑战了围绕先进AI模型推理能力的主流说法。该研究对领先的AI系统(如Claude 3.7 Sonnet、DeepSeek-R1和OpenAI的o3-mini)拥有类似于人类认知的真正推理能力的说法提出了质疑。相反,苹果的研究结果表明,这些模型主要是复杂的模式匹配系统,在面对复杂的新问题时表现出明显的局限性。

研究团队精心设计了可控的益智环境——包括汉诺塔、跳棋、过河问题和积木堆叠——以系统地评估这些模型在不同复杂度水平上的性能。这种方法与传统的基准测试方法大相径庭,后者通常依赖于训练数据,可能会高估模型的能力。通过观察模型的逐步推理过程,苹果的研究人员发现了三个关键的局限性:

1. 复杂度断崖:研究揭示了一种被称为“完全准确性崩溃”的现象,即在简单任务中表现近乎完美的模型,随着复杂度的增加,其准确性会急剧下降。这表明对底层原理的理解肤浅,而不是性能的逐渐下降。

2. 努力悖论:有趣的是,研究人员观察到,随着问题难度的增加,模型最初会增加其明显的“思考”努力,生成更详细的推理步骤。然而,超过某个阈值后,这种努力会莫名其妙地减少,即使有充足的计算资源可用。这种行为类似于学生在面对难以克服的困难时放弃系统的解决问题方法而选择猜测。

3. 三个性能区域:苹果公司确定了三个不同的性能区域:标准AI模型优于推理模型的低复杂度任务;推理模型表现优异的中复杂度任务;以及两种类型的模型都惨遭失败的高复杂度任务。这种三方划分突出了当前AI推理在整个复杂度范围内的局限性。

该研究的结果揭示了所有四种益智类型中一致的失败模式。这些包括即使复杂度略微增加也会导致准确性显著下降,逻辑算法应用不一致,以及倾向于采用对简单问题有效但对更具挑战性问题却灾难性的计算捷径。这表明当前的AI推理比以前认为的要脆弱得多,也更有限。

苹果公司研究的影响超出了学术讨论的范围,它影响了更广泛的AI行业,并影响了依赖AI能力的决策过程。研究结果表明,当前AI模型中备受讨论的“推理”能力本质上是复杂的记忆和模式识别形式。虽然这些模型擅长将学习到的解决方案应用于熟悉的问题,但当面对真正新颖、复杂的情况时,它们就会失败。

这让人对关于通用人工智能(AGI)即将到来的过于乐观的预测产生了怀疑。通往AGI的道路可能比以前预期的要长得多,也更具挑战性,需要从根本上改进推理和真正智能的新方法。苹果公司的研究在承认特定领域取得进展的同时,也强调需要从炒作驱动的营销转向对AI能力的严格科学评估。AI发展的未来需要专注于构建真正能够推理的系统,而不是仅仅模仿推理的外观。

Read the English version (阅读英文版)

免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。