苹果研究人员挑战大型语言模型的“推理”能力
苹果研究人员挑战大型语言模型的“推理”能力

苹果公司最近发表的一篇研究论文对领先的大型语言模型(LLM)广为宣传的“推理”能力提出了质疑。该研究由苹果机器学习专家团队撰写,其中包括人工智能和机器学习研究总监Samy Bengio,挑战了OpenAI、Anthropic和谷歌等公司关于OpenAI的GPT-3、Anthropic的Claude 3.7和谷歌的Gemini等模型先进推理能力的声明。
研究人员认为,业界对LLM推理能力的评估被严重夸大了,将其描述为“思维的错觉”。他们的分析重点关注用于对这些模型进行基准测试的方法,强调了数据污染以及缺乏对推理过程的结构和质量的深入了解的问题。苹果团队使用“可控的谜题环境”进行了广泛的实验,以评估这些模型的实际推理能力。
结果揭示了一个令人担忧的趋势:LLM在超过一定复杂性阈值后,“准确性完全崩溃”。这篇论文将这种现象描述为“过度思考”,它表明即使有足够的数据和计算资源,推理准确性也会下降。这一发现与更广泛的观察结果相符,这些观察结果表明,新一代推理模型更容易出现幻觉,这表明当前开发方法存在潜在的局限性。
苹果的研究人员进一步强调了LLM解决问题方法中的不一致性。他们发现,这些模型缺乏使用显式算法的能力,并且在类似的谜题中表现出不一致的推理能力。研究团队得出结论,他们的发现对当前LLM的真实推理能力提出了关键性问题,特别是考虑到为其开发投入了大量的资金和计算能力。
这项研究增加了围绕当前LLM技术局限性的日益激烈的争论。虽然各公司仍在大力投资开发功能越来越强大的模型,但苹果的发现表明,在实现真正通用的推理能力方面仍然存在根本性挑战。这项研究的影响意义重大,特别是对于LLM在各个领域的未来发展和应用。
鉴于苹果公司在将AI集成到其消费产品方面相对谨慎的做法,这项出版物的时机也值得注意。虽然该公司承诺提供一套苹果智能工具,但这项研究可以被解释为对当前技术状态的谨慎评估,表明可能需要重新评估整个AI行业的现有开发策略。
Read the English version (阅读英文版)
免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。