关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者4163人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国或"最快本周"再次对俄罗斯动手 已和27国讨论计划

澎湃新闻 浏览 13989

官宣!国足3月参加FIFA系列赛,过招两大世界杯劲旅+非洲杯5冠王

我爱英超 浏览 3131

百度的AI叙事,刚刚开始

锦缎研究院 浏览 4832

拖欠2000万投资款,知名影视公司紫骏影视被判“以房抵债”,实控人曹哲连带担责

红星资本局 浏览 2909

五日内三家齐发,武汉企业接连闯关港股

虎投邦 浏览 3395

官方:朴茨茅斯vs伊普斯维奇因场地严重积水推迟

懂球帝 浏览 3002

12月22日发布 零跑D19内饰设计图曝光

网易汽车 浏览 3447

大张伟和老婆腻歪,当一个42岁叛逆“小娇夫”

凌风的世界观 浏览 3490

农妇收玉米时遇山体坍塌失联4天 周边马路出现大坑

红星新闻 浏览 15218

媒体:日本拥有核武器 只差一把"螺丝刀"

北京日报客户端-长安街知事 浏览 12822

激光雷达/全面焕新 全新一代传祺向往 E8 PHEV开启预订

网易汽车 浏览 1166

利昂-贝利替补出场20分钟后被换下,赛季未过半已经受伤三次

懂球帝 浏览 3464

六王表演赛:辛纳2-0横扫阿卡,带走600万美金和一把纯金球拍

懂球帝 浏览 4069

特朗普还嘴硬:莫迪保证过不买俄罗斯石油了

澎湃新闻 浏览 9281

王健林限高措施已取消

YOUNG财经 浏览 4633

丁俊晖:来英锦赛心情和状态好;与特鲁姆普比赛是最难的

懂球帝 浏览 3780

港股今年最大车企IPO要来了!赛力斯拟募资超130亿港元,基石投资者阵容豪华

时代周报 浏览 4144

阿莫林的耻辱之最

体坛周报 浏览 3220

美媒称沙特强烈游说特朗普对伊朗动手 沙特坚决否认

环球时报国际 浏览 42920

美国"全面封锁"受制裁油轮 一艘油轮狂发75次求救信号

红星新闻 浏览 30702

富勒姆怒斥曼联第一球不应存在,炮轰天大误判!英超官方解释原因

罗米的曼联博客 浏览 2953
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1