在浏览器中即可体验苹果突破性的FastVLM AI。
Image from 9to5Mac苹果创新的FastVLM视觉语言模型(VLM)以其近乎即时、高分辨率的图像处理能力而闻名,现已比以往任何时候都更易于访问。用户可以直接从网页浏览器体验这款闪电般快速的视频字幕模型,从而一窥设备端AI的未来。
FastVLM于数月前首次亮相,它利用了MLX(苹果专为Apple Silicon优化的专有开源机器学习框架),实现了视频字幕生成速度提升85倍,同时模型大小比同类模型小三倍多。随着更轻量级的FastVLM-0.5B版本在Hugging Face上发布,其高效性能现已全面展现。
测试该模型非常简单:只需在浏览器中加载即可。尽管初始加载时间可能因硬件而异(例如,在16GB M2 Pro MacBook Pro上可能需要几分钟),但一旦激活,模型就能对外观、环境、表情和物体提供极其准确且实时的描述。用户可以自定义提示词,或从“用一句话描述你所看到的”或“正在表达什么情绪?”等建议中进行选择。
这项基于浏览器的实验的一个突出特点是其本地执行能力,确保任何数据都不会离开设备,并支持离线功能。这种以隐私为中心、低延迟的方法使得FastVLM在可穿戴设备和辅助技术中的应用前景尤为广阔。尽管此次演示展示的是5亿参数模型,但FastVLM家族还包括更大的15亿和70亿参数版本,预示着未来更强大的能力。
Read the English version (阅读英文版)
免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。