Browsed by
Category: 机器学习

苹果研究人员挑战大型语言模型的“推理”能力

苹果研究人员挑战大型语言模型的“推理”能力

苹果研究人员挑战大型语言模型的“推理”能力

Scrabble game spelling 'CHATGPT' with wooden tiles on textured background.
Scrabble game spelling ‘CHATGPT’ with wooden tiles on textured background.

苹果公司最近发表的一篇研究论文对领先的大型语言模型(LLM)广为宣传的“推理”能力提出了质疑。该研究由苹果机器学习专家团队撰写,其中包括人工智能和机器学习研究总监Samy Bengio,挑战了OpenAI、Anthropic和谷歌等公司关于OpenAI的GPT-3、Anthropic的Claude 3.7和谷歌的Gemini等模型先进推理能力的声明。

研究人员认为,业界对LLM推理能力的评估被严重夸大了,将其描述为“思维的错觉”。他们的分析重点关注用于对这些模型进行基准测试的方法,强调了数据污染以及缺乏对推理过程的结构和质量的深入了解的问题。苹果团队使用“可控的谜题环境”进行了广泛的实验,以评估这些模型的实际推理能力。

结果揭示了一个令人担忧的趋势:LLM在超过一定复杂性阈值后,“准确性完全崩溃”。这篇论文将这种现象描述为“过度思考”,它表明即使有足够的数据和计算资源,推理准确性也会下降。这一发现与更广泛的观察结果相符,这些观察结果表明,新一代推理模型更容易出现幻觉,这表明当前开发方法存在潜在的局限性。

苹果的研究人员进一步强调了LLM解决问题方法中的不一致性。他们发现,这些模型缺乏使用显式算法的能力,并且在类似的谜题中表现出不一致的推理能力。研究团队得出结论,他们的发现对当前LLM的真实推理能力提出了关键性问题,特别是考虑到为其开发投入了大量的资金和计算能力。

这项研究增加了围绕当前LLM技术局限性的日益激烈的争论。虽然各公司仍在大力投资开发功能越来越强大的模型,但苹果的发现表明,在实现真正通用的推理能力方面仍然存在根本性挑战。这项研究的影响意义重大,特别是对于LLM在各个领域的未来发展和应用。

鉴于苹果公司在将AI集成到其消费产品方面相对谨慎的做法,这项出版物的时机也值得注意。虽然该公司承诺提供一套苹果智能工具,但这项研究可以被解释为对当前技术状态的谨慎评估,表明可能需要重新评估整个AI行业的现有开发策略。

Read the English version (阅读英文版)

免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。

先进推理AI模型的准确性崩溃:苹果研究揭示了局限性

先进推理AI模型的准确性崩溃:苹果研究揭示了局限性

先进推理AI模型的准确性崩溃:苹果研究揭示了局限性

A robot arm assists a professional with a book and coffee in a modern office setup. Technology meets innovation.
A robot arm assists a professional with a book and coffee in a modern office setup. Technology meets innovation.

苹果机器学习研究团队近期发表的一项研究挑战了关于高级推理人工智能 (AI) 模型能力的普遍说法。该研究揭示了一个显著的局限性:尽管这些模型很复杂,但在面对越来越复杂的问题时,它们会经历“完全准确性崩溃”。

这项研究关注几个旨在进行推理的著名大型语言模型 (LLM),包括 OpenAI 的 o3、DeepSeek 的 R1、Meta 的 Claude、Anthropic 的 Claude 3.7 Sonnet 和 Google 的 Gemini。这些模型利用“思维链”过程来提高准确性,并在具有不同复杂程度的经典难题上进行了测试。“思维链”方法涉及用清晰的语言仔细地概述推理过程,以便更好地观察和评估。

虽然推理模型在中等复杂的任务上优于通用 LLM,但研究人员发现了一个临界点,超过这个临界点,它们的准确性会急剧下降。研究人员观察到,随着复杂性的增加,模型分配给解决问题的计算资源(token)减少,这表明在维持思维链过程中存在根本性限制。即使提供了解决方案算法,这种“准确性崩溃”也会发生。

这一发现与一些科技公司声称这些模型即将实现人工通用智能 (AGI) 的说法相矛盾。该研究强调,这些模型严重依赖模式识别,而不是真正的涌现逻辑,这是在关于 AGI 的讨论中经常被忽视的一个关键区别。

苹果的研究还指出,随着推理模型复杂性的增加,“幻觉”——生成错误或虚假信息——的情况令人担忧地增多。这与 OpenAI 此前的报告相符,该报告记录了其更先进的 o3 和 o4-mini 模型与早期迭代相比,幻觉率显著提高。

研究人员承认他们的研究存在局限性,并指出所使用的难题只代表一部分可能的推理任务。然而,这些发现为了解当前推理 AI 模型的固有局限性提供了宝贵的见解,并对对其能力过于乐观的预测提出了警告。该研究强调需要更强大的评估范式,这些范式需要超越已建立的基准,因为已建立的基准通常存在数据污染和缺乏受控实验条件的问题。

这项研究的发表引发了人工智能界的辩论。一些人指责苹果“酸葡萄心理”,因为其在大语言模型领域进展相对较慢;另一些人则赞扬这项研究为当前人工智能能力提供了急需的批判性分析。这些发现强调了对先进人工智能系统的真正潜力和局限性进行严格科学研究的重要性,从而促进了对其当前状态和未来前景更现实、更细致的理解。

Read the English version (阅读英文版)

免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。

苹果的“思维幻象”:揭露当前AI推理模型的局限性

苹果的“思维幻象”:揭露当前AI推理模型的局限性

苹果的“思维幻象”:揭露当前AI推理模型的局限性

Apple's
Apple’s “Illusion of Thinking”: Exposing the Limitations of Current AI Reasoning Models

苹果公司最近发表了一篇题为“思维的幻象”(The Illusion of Thinking)的研究论文,挑战了围绕先进AI模型推理能力的主流说法。该研究对领先的AI系统(如Claude 3.7 Sonnet、DeepSeek-R1和OpenAI的o3-mini)拥有类似于人类认知的真正推理能力的说法提出了质疑。相反,苹果的研究结果表明,这些模型主要是复杂的模式匹配系统,在面对复杂的新问题时表现出明显的局限性。

研究团队精心设计了可控的益智环境——包括汉诺塔、跳棋、过河问题和积木堆叠——以系统地评估这些模型在不同复杂度水平上的性能。这种方法与传统的基准测试方法大相径庭,后者通常依赖于训练数据,可能会高估模型的能力。通过观察模型的逐步推理过程,苹果的研究人员发现了三个关键的局限性:

1. 复杂度断崖:研究揭示了一种被称为“完全准确性崩溃”的现象,即在简单任务中表现近乎完美的模型,随着复杂度的增加,其准确性会急剧下降。这表明对底层原理的理解肤浅,而不是性能的逐渐下降。

2. 努力悖论:有趣的是,研究人员观察到,随着问题难度的增加,模型最初会增加其明显的“思考”努力,生成更详细的推理步骤。然而,超过某个阈值后,这种努力会莫名其妙地减少,即使有充足的计算资源可用。这种行为类似于学生在面对难以克服的困难时放弃系统的解决问题方法而选择猜测。

3. 三个性能区域:苹果公司确定了三个不同的性能区域:标准AI模型优于推理模型的低复杂度任务;推理模型表现优异的中复杂度任务;以及两种类型的模型都惨遭失败的高复杂度任务。这种三方划分突出了当前AI推理在整个复杂度范围内的局限性。

该研究的结果揭示了所有四种益智类型中一致的失败模式。这些包括即使复杂度略微增加也会导致准确性显著下降,逻辑算法应用不一致,以及倾向于采用对简单问题有效但对更具挑战性问题却灾难性的计算捷径。这表明当前的AI推理比以前认为的要脆弱得多,也更有限。

苹果公司研究的影响超出了学术讨论的范围,它影响了更广泛的AI行业,并影响了依赖AI能力的决策过程。研究结果表明,当前AI模型中备受讨论的“推理”能力本质上是复杂的记忆和模式识别形式。虽然这些模型擅长将学习到的解决方案应用于熟悉的问题,但当面对真正新颖、复杂的情况时,它们就会失败。

这让人对关于通用人工智能(AGI)即将到来的过于乐观的预测产生了怀疑。通往AGI的道路可能比以前预期的要长得多,也更具挑战性,需要从根本上改进推理和真正智能的新方法。苹果公司的研究在承认特定领域取得进展的同时,也强调需要从炒作驱动的营销转向对AI能力的严格科学评估。AI发展的未来需要专注于构建真正能够推理的系统,而不是仅仅模仿推理的外观。

Read the English version (阅读英文版)

免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。

增强CRISPR/Cas9精准度:深度学习模型用于脱靶预测的比较分析

增强CRISPR/Cas9精准度:深度学习模型用于脱靶预测的比较分析

增强CRISPR/Cas9精准度:深度学习模型用于脱靶预测的比较分析

Enhancing CRISPR/Cas9 Precision: A Comparative Analysis of Deep Learning Models for Off-Target Prediction
Enhancing CRISPR/Cas9 Precision: A Comparative Analysis of Deep Learning Models for Off-Target Prediction

CRISPR/Cas9基因编辑技术具有巨大的治疗潜力,可对基因修饰进行精确控制。然而,脱靶效应——在与目标位点相似的基因组位置上发生意外编辑——是一个巨大的障碍,尤其是在临床环境中。减轻这些风险需要强大的预测方法,而深度学习已成为这项工作的有力工具。本分析回顾了深度学习模型在预测CRISPR/Cas9脱靶位点(OTS)方面的应用,比较了它们的性能并确定了影响其准确性的关键因素。

已经开发了几种深度学习模型来根据序列特征预测潜在的OTS。本研究重点关注六个突出的模型:CRISPR-Net、CRISPR-IP、R-CRISPR、CRISPR-M、CrisprDNT和Crispr-SGRU。我们使用六个公开可用的数据集对这些模型进行了评估,并补充了来自CRISPRoffT数据库的经过验证的OTS数据。使用一套标准化指标对性能进行了严格评估,包括精确度、召回率、F1分数、马修斯相关系数(MCC)、受试者工作特征曲线下面积(AUROC)和精确率-召回率曲线下面积(PRAUC)。

我们的比较分析揭示了训练数据质量对模型性能的重大影响。纳入经过验证的OTS数据集明显提高了预测的整体准确性和稳健性,尤其是在解决OTS数据集中经常存在的固有类别不平衡问题时(其中真正的脱靶位点远少于真正的靶向位点)。虽然没有一个模型在所有数据集上始终优于其他模型,但CRISPR-Net、R-CRISPR和Crispr-SGRU始终表现出强大的整体性能,突出了特定架构设计的潜力。

这项全面的评估强调了在训练用于CRISPR/Cas9脱靶预测的深度学习模型时,高质量、经过验证的OTS数据至关重要。将此类数据与复杂的深度学习架构相结合,对于提高这些预测工具的准确性和可靠性至关重要,最终有助于在治疗和研究环境中安全有效地应用CRISPR/Cas9技术。未来的研究应侧重于开发更强大的模型,并扩大高质量、实验验证的OTS数据集的可用性,以进一步增强预测能力。

Read the English version (阅读英文版)

免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。

优化多流卷积神经网络:增强特征提取和计算效率

优化多流卷积神经网络:增强特征提取和计算效率

优化多流卷积神经网络:增强特征提取和计算效率

A vibrant and artistic representation of neural networks in an abstract 3D render, showcasing technology concepts.
A vibrant and artistic representation of neural networks in an abstract 3D render, showcasing technology concepts.

人工智能(AI)的快速发展推动了深度学习(DL)在技术创新中占据领先地位,尤其是在计算机视觉、自然语言处理和语音识别领域。卷积神经网络(CNN)作为DL的基石,在图像处理和模式识别方面展现出卓越的性能。然而,传统的单流CNN架构在处理日益复杂的任务和大规模数据集时,面临着计算效率和处理能力的限制。

多流卷积神经网络(MSCNN)提供了一种有前景的替代方案,它利用多个路径的并行处理来增强特征提取和模型鲁棒性。本研究解决了现有MSCNN架构中的重大缺陷,包括路径之间信息隔离、特征融合机制效率低下以及高计算复杂度。这些缺陷通常会导致关键鲁棒性指标(如抗噪性、遮挡敏感性和对抗攻击抵抗力)的次优性能。此外,目前的MSCNN通常难以应对数据和资源的可扩展性问题。

为了克服这些限制,本研究提出了一种优化的MSCNN架构,该架构包含几个关键创新。一种动态路径协作机制,采用一种新颖的路径注意力机制和一个特征共享模块,促进了并行路径之间增强的信息交互。这与基于自注意力的特征融合方法相结合,以提高特征集成的效率。此外,优化后的模型集成了路径选择和模型剪枝技术,以在模型性能和计算资源需求之间取得平衡。

使用三个数据集对所提出的优化模型的有效性进行了严格评估:CIFAR-10、ImageNet和一个自定义数据集。与Swin Transformer、ConvNeXt和EfficientNetV2等已建立的模型的比较分析表明,在多个指标上都有显著改进。具体而言,优化后的模型实现了更高的分类精度、精确率、召回率和F1分数。此外,它还表现出大大更快的训练和推理时间、减少的参数数量和更低的GPU内存使用率,突出了其增强的计算效率。

仿真实验进一步验证了模型的鲁棒性和可扩展性。优化后的模型在抗噪性、遮挡敏感性和对抗攻击抵抗力方面均表现出显著的改进。其数据可扩展性效率和任务适应性也优于基线模型。这种性能的提高归功于集成的路径协作机制、基于自注意力的特征融合以及实现的轻量级优化策略。这些增强使模型能够有效地处理复杂的输入,适应不同的任务,并在资源受限的环境中高效运行。

虽然本研究在MSCNN优化方面取得了重大进展,但仍存在一些局限性。固定的三路径架构可能会限制其对高度复杂任务的适应性。自注意力机制的计算开销对实时应用提出了挑战。未来的研究将集中在开发动态路径调整机制、探索更高效的特征融合技术以及将模型的适用性扩展到更复杂的任务(如语义分割和小样本学习场景)上。

总之,本研究为深度学习架构优化领域做出了宝贵的贡献。所提出的优化MSCNN架构展现出优越的性能、鲁棒性和可扩展性,为需要高效且鲁棒的深度学习模型的各种应用提供了重大进步。这些发现有助于更全面地理解MSCNN,并为未来在动态路径分配、轻量级特征融合和更广泛的任务适用性方面的研究铺平了道路。

Read the English version (阅读英文版)

免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。