苹果智能深度解析:新科技报告揭示AI模型训练的深刻见解

苹果智能深度解析:新科技报告揭示AI模型训练的深刻见解

苹果智能深度解析:新科技报告揭示AI模型训练的深刻见解

Apple Intelligence Unpacked: New Tech Report Reveals Deep Insights into AI Model Training
Image from 9to5Mac
苹果发布了一份名为《Apple Intelligence基础语言模型——2025技术报告》的全面技术报告,前所未有地深入解读了其新型端侧和云端基础模型的训练、优化和评估过程。这份报告是在WWDC25首次公布Apple Intelligence之后发布的,为开发者和爱好者提供了关键细节。 报告揭示了苹果AI的创新架构。端侧模型拥有约30亿参数,被精巧地分为两个模块。这种设计将缓存所需的内存减少了37.5%,并显著缩短了首个令牌的输出时间,同时保持了性能。这种战略性划分凸显了苹果致力于高效本地AI处理的决心,即使是在内存受限的设备上。 对于服务器端操作,苹果为其私有云计算平台开发了一种名为“并行轨道专家混合模型”(Parallel-Track Mixture-of-Experts, PT-MoE)的定制架构。这种精密设计将庞大的AI模型分解为更小、更专业的子网络,这些子网络仅在与特定任务相关时才会被激活。通过整合新的并行轨道Transformer和MoE层,云端模型能够在多个轨道上独立处理令牌,从而实现更快、更准确的响应,同时避免了系统范围的瓶颈。 针对一项重大限制,苹果大幅提升了多语言支持。报告详细指出,训练过程中使用的多语言数据增加了275%,目前占总数据集的30%。分词器的词汇量也增加了50%,从10万个令牌扩展到15万个。这些改变使得在非英语基准测试中取得了显著的性能提升,确保了“写作工具”等功能在所有支持的语言中更加可靠。 关于数据来源,报告证实,最大的训练数据部分来自Applebot抓取的公开网络内容,且Applebot遵守robots.txt排除协议。此外,苹果还利用了出版商的授权数据,为数学和代码等任务生成了合成数据,并使用了超过100亿对图像-标题数据用于视觉理解。这种详细披露凸显了苹果独特且注重隐私的AI开发方法,使其在竞争激烈的市场中脱颖而出。

Read the English version (阅读英文版)

免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。