谷歌Gemini 2.5 可操作电脑

作者： CBISMB

责任编辑：张金祥

来源： ISMB

时间： 2025-10-09 10:07

关键字：谷歌,Gemini 2.5,操作电脑

点赞： 225

收藏： 28

谷歌的Gemini 2.5中引入了一款全新的AI模型——计算机使用模型，该模型具备模拟PC使用的能力，能够独立识别屏幕元素并执行操作，为自动化测试等领域带来了新的可能。

谷歌此次推出的计算机使用模型，旨在高度模拟人类对PC的使用。它可以独立识别屏幕上的各类元素，并精准执行点击和操作。以用户测试场景为例，借助这一模型，用户能够自动对网站和用户界面展开全面的用户测试。此外，该软件还具备信息提取与处理能力，能够从文本和图像中提取关键信息，并根据用户提示对这些信息进行进一步处理和展示。

在技术实现上，计算机使用模型运用计算机视觉技术来识别屏幕元素。它以桌面屏幕截图等数据作为输入，通过先进的算法识别出截图中的各个元素，随后执行相应的操作，如鼠标点击和键盘输入。完成操作后，系统会生成新的屏幕截图并传递给模型，如此循环往复，直至达到预期的结果。

谷歌在相关博客文章中明确指出，Gemini 2.5计算机使用模型主要针对网络浏览器进行了优化。不过，它也具备一定的通用性，能够识别和操作浏览器之外的其他图形用户界面（GUI）元素。但谷歌同时也承认，目前该模型并非为在操作系统桌面级别进行控制而设计。

尽管如此，考虑到应用程序的用户测试通常不局限于浏览器环境，谷歌针对专用程序的GUI对该模型进行进一步优化或许只是时间问题。一旦实现这一优化，该模型的应用范围将得到极大拓展，有望在更多领域发挥重要作用。

目前，计算机使用模型处于公开预览阶段，谷歌尚未公布该模型全面向所有用户开放的具体时间。这一阶段为开发者和用户提供了提前体验和反馈的机会，有助于谷歌进一步优化和完善模型。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

谷歌Gemini 2.5 可操作电脑

相关推荐

智库专家

解决方案