关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者3963人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

<
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

朱亚文评价白宇,只字不提演技,却一针见血

白面书誏 浏览 3063

‍♂️吧友们抓紧了!国足主帅报名将于明天截止

直播吧 浏览 4132

“塌房失败”的李雪琴给所有人上了一课

乡野小珥 浏览 3849

莱万特3-0大胜塞维利亚,卡洛斯-阿尔瓦雷斯、卡洛斯-埃斯皮破门

懂球帝 浏览 3235

俄总统新闻秘书:普京愿与特朗普在莫斯科会晤

环球网资讯 浏览 39697

阿联酋宣布退出欧佩克 阿联酋能源部长回应

央视新闻客户端 浏览 34417

苹果iPhone 17e首次支持eSIM!单SIM卡+eSIM/双eSIM

快科技 浏览 2548

如果可以,希望鲁豫老师再工作30年!

时尚COSMO 浏览 3314

陆毅女儿漂亮到认不出!年仅16岁身高超一米七,长相神似陈都灵

温柔娱公子 浏览 4373

以军禁止约旦人道主义援助物资进入加沙

北青网-北京青年报 浏览 5159

大A里程:3.15万亿,4120点,十年新高

正经社 浏览 3166

印度总统乘坐“阵风”战斗机进行飞行体验

环球网资讯 浏览 4010

12月22日发布 零跑D19内饰设计图曝光

网易汽车 浏览 3450

冲刺第一股,中国最大独立模型厂商的成色、能力与野心

晚点LatePost 浏览 3427

追觅“星空计划”Nebula NEXT 01 Concept获CES官方置顶推荐

周天财经 浏览 3172

两死者死于家中非交通事故 定损员伙同他人骗保120万

红星新闻 浏览 14929

限量3000台 广汽本田新飞度焕新价6.68万

网易汽车 浏览 3206

诺贝尔经济学奖获得者放话:欧洲不能让中美赢了

澎湃新闻 浏览 9531

使命、念力与品位:AI时代的人之为人

华夏时报 浏览 2476

今日热点:卢靖姗韩庚官宣二胎出生;路行退出《再见爱人5》……

伊周潮流 浏览 3485

夜读体验史诗级提升:苹果 M5 iPad Pro 屏幕亮度最低为 1 尼特

IT之家 浏览 4291
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1