Google发布Gemini 2.5计算机使用模型
在今年早些时候的 Google I/O 开发者大会上,Google宣布将为 Gemini API 引入计算机使用功能。今天,Google发布了 Gemini 2.5 计算机使用模型,这是一个全新的专用模型,旨在为能够与用户界面 (UI) 交互的代理提供支持。Google声称,该新模型在多个 Web 和移动控制基准测试中均优于其他同类模型 。
Gemini API computer_use 工具的工作原理如下:
开发人员需要将用户请求作为输入发送给工具,其中包括环境的屏幕截图和最近操作的历史记录。
除了输入之外,开发人员还可以指定是否从支持的完整 UI 操作列表中排除功能,或者是否需要包含任何其他自定义功能。
该模型将分析接收到的输入并生成响应,这将是 UI 操作之一,例如单击或键入。
如果模型不确定,它甚至可能会请求最终用户确认。例如,如果该操作与购买商品有关,则需要用户确认。
然后,客户端代码执行接收到的操作,例如单击按钮或显示最终用户确认。
一旦操作完成,当前 GUI 的新屏幕截图和当前 URL 将作为函数响应发送回计算机使用模型,重新开始循环。
重复上述步骤,直至达到主要任务目标。
虽然 Gemini 2.5 计算机使用模型针对网页浏览器进行了优化,但 Google 声称该模型在移动 UI 控制任务中也表现出色。Google特别提到 ,该模型尚未针对桌面操作系统级别的控制进行优化。正如您在下面的基准测试中看到的,Gemini 2.5 计算机使用模型在几个关键基准测试中都取得了最佳结果。
Gemini 2.5 计算机使用模型现已公开预览,开发人员可以通过 Google AI Studio 和 Vertex AI 上的 Gemini API 访问它。
责任编辑:站长云网
踩一下[0]
顶一下[0]