关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者4546人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普或为中国制造三大机遇,中国如何利用?

浏览 27595

就两岸关系 郑丽文、马英九最新表态

新京报政事儿 浏览 9274

预测票房26亿!除了中文配音拉胯,《疯狂动物城2》没任何毛病

最爱酷影视 浏览 4211

王楚钦横扫帕尔采访!太久没打直呼生疏,亲承中国是最好办赛环境

篮球资讯达人 浏览 3354

西方14国发布联合声明 有乌克兰参与但没有美国

新民晚报 浏览 10185

竞逐AI内容,爱奇艺先出手了

连线Insight 浏览 4584

价格猛涨、库存连降!环氧丙烷题材股接连涨停

览富财经网 浏览 3507

银价已见顶

路财主 浏览 3368

拉加德暗示欧央行不急行动:政策处于有利位置,未预设利率路径,任何选项都应考虑

华尔街见闻官方 浏览 3916

21岁女生患白血病寻亲 有人主动认亲后表示年份不符

潇湘晨报 浏览 7361

央视点名!这5位艺人现原形?

君笙的拂兮 浏览 4530

腾讯集团高级副总裁郭凯天:坚持智能向善,构筑人与AI的信任机制

上游新闻 浏览 4392

杨丽萍离婚22年,富豪前夫依旧迷恋她主打守护

白面书誏 浏览 4349

“大衣+毛衣”今年冬天又火了,这样穿时髦又高级!

LinkFashion 浏览 3270

八位堂推出“任天堂 NES 游戏机 40 周年”主体限定外设硬件

IT之家 浏览 4694

记者:曼市双雄尚未和森林谈安德森,若欧联夺冠森林希望留人

懂球帝 浏览 2000

联通三季报:宽移用户净增规模创新高,首次披露云收入数字

南方都市报 浏览 4681

俄称击落数十架飞往莫斯科无人机

北青网-北京青年报 浏览 3906

大S纪念雕像揭幕时间曝光 具俊晔小S揭开黑色帆布

扒虾侃娱 浏览 3396

拜仁欧冠战巴黎大名单:凯恩领衔,诺伊尔、卡尔在列

懂球帝 浏览 4499

聂远不让女儿雨天上学,黄磊女儿满口错别字,怪不得星二代要进圈

萌神木木 浏览 4104
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1