谷歌Gemini 2.5 可操作电脑

作者: CBISMB

责任编辑: 张金祥

来源: ISMB

时间: 2025-10-09 10:07

关键字: 谷歌,Gemini 2.5,操作电脑

浏览: 4039

点赞: 225

收藏: 28

谷歌的Gemini 2.5中引入了一款全新的AI模型——计算机使用模型,该模型具备模拟PC使用的能力,能够独立识别屏幕元素并执行操作,为自动化测试等领域带来了新的可能。

谷歌此次推出的计算机使用模型,旨在高度模拟人类对PC的使用。它可以独立识别屏幕上的各类元素,并精准执行点击和操作。以用户测试场景为例,借助这一模型,用户能够自动对网站和用户界面展开全面的用户测试。此外,该软件还具备信息提取与处理能力,能够从文本和图像中提取关键信息,并根据用户提示对这些信息进行进一步处理和展示。

在技术实现上,计算机使用模型运用计算机视觉技术来识别屏幕元素。它以桌面屏幕截图等数据作为输入,通过先进的算法识别出截图中的各个元素,随后执行相应的操作,如鼠标点击和键盘输入。完成操作后,系统会生成新的屏幕截图并传递给模型,如此循环往复,直至达到预期的结果。

谷歌在相关博客文章中明确指出,Gemini 2.5计算机使用模型主要针对网络浏览器进行了优化。不过,它也具备一定的通用性,能够识别和操作浏览器之外的其他图形用户界面(GUI)元素。但谷歌同时也承认,目前该模型并非为在操作系统桌面级别进行控制而设计。

尽管如此,考虑到应用程序的用户测试通常不局限于浏览器环境,谷歌针对专用程序的GUI对该模型进行进一步优化或许只是时间问题。一旦实现这一优化,该模型的应用范围将得到极大拓展,有望在更多领域发挥重要作用。

目前,计算机使用模型处于公开预览阶段,谷歌尚未公布该模型全面向所有用户开放的具体时间。这一阶段为开发者和用户提供了提前体验和反馈的机会,有助于谷歌进一步优化和完善模型。

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。