谷歌Gemini 2.5 可操作电脑
作者: CBISMB
责任编辑: 张金祥
来源: ISMB
时间: 2025-10-09 10:07
关键字: 谷歌,Gemini 2.5,操作电脑
浏览: 4039
点赞: 225
收藏: 28
谷歌的Gemini 2.5中引入了一款全新的AI模型——计算机使用模型,该模型具备模拟PC使用的能力,能够独立识别屏幕元素并执行操作,为自动化测试等领域带来了新的可能。
谷歌此次推出的计算机使用模型,旨在高度模拟人类对PC的使用。它可以独立识别屏幕上的各类元素,并精准执行点击和操作。以用户测试场景为例,借助这一模型,用户能够自动对网站和用户界面展开全面的用户测试。此外,该软件还具备信息提取与处理能力,能够从文本和图像中提取关键信息,并根据用户提示对这些信息进行进一步处理和展示。
在技术实现上,计算机使用模型运用计算机视觉技术来识别屏幕元素。它以桌面屏幕截图等数据作为输入,通过先进的算法识别出截图中的各个元素,随后执行相应的操作,如鼠标点击和键盘输入。完成操作后,系统会生成新的屏幕截图并传递给模型,如此循环往复,直至达到预期的结果。
谷歌在相关博客文章中明确指出,Gemini 2.5计算机使用模型主要针对网络浏览器进行了优化。不过,它也具备一定的通用性,能够识别和操作浏览器之外的其他图形用户界面(GUI)元素。但谷歌同时也承认,目前该模型并非为在操作系统桌面级别进行控制而设计。
尽管如此,考虑到应用程序的用户测试通常不局限于浏览器环境,谷歌针对专用程序的GUI对该模型进行进一步优化或许只是时间问题。一旦实现这一优化,该模型的应用范围将得到极大拓展,有望在更多领域发挥重要作用。
目前,计算机使用模型处于公开预览阶段,谷歌尚未公布该模型全面向所有用户开放的具体时间。这一阶段为开发者和用户提供了提前体验和反馈的机会,有助于谷歌进一步优化和完善模型。