谷歌 Gemini AI 获得高级网页浏览器控制能力,可执行代理任务。

谷歌 Gemini AI 获得高级网页浏览器控制能力,可执行代理任务。

谷歌 Gemini AI 获得高级网页浏览器控制能力,可执行代理任务。

Google's Gemini AI Gains Advanced Web Browser Control for Agentic Tasks
Image from The Verge
谷歌正在为其Gemini AI平台推出一项重大增强功能,引入了一个新模型,旨在通过浏览器直接浏览和交互网页。这一功能使AI代理能够在传统上为人类用户构建的界面中操作,标志着自动化任务执行方面的一个飞跃。 该模型被命名为Gemini 2.5 Computer Use,它利用先进的视觉理解和推理能力来解释用户请求并执行复杂任务,例如准确填写和提交在线表格。这一功能对于UI测试以及与缺乏直接API访问的系统进行交互尤其有价值。 谷歌强调,这种“仅限浏览器”的方法使Gemini 2.5 Computer Use区别于一些可能访问整个计算机环境的竞争对手。尽管如此,谷歌声称其新模型在各种网络和移动基准测试中均优于主要的替代方案。目前,该模型支持13项核心操作,包括打开网页浏览器、输入文本以及拖放元素。 开发者可以通过Google AI Studio和Vertex AI访问Gemini 2.5 Computer Use,Browserbase上还提供了一个公开演示,展示了其完成诸如玩游戏或浏览新闻网站等任务的能力。

Read the English version (阅读英文版)

免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。