关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者4375人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

<
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

卡内基梅隆大学打造"神经侦探":让AI像破案一样学会理解语音

科技行者 浏览 3698

理想为什么不做轿车,有了解释……

道哥说车 浏览 1252

利智输了?李连杰终是没放下一直亏欠的“她”

顾史 浏览 3487

痛批落马副市长的市长也落马了,你别笑

识局 浏览 3407

为内卷止损,为长钱布局!2026两会为金融发展划重点

独角金融 浏览 2749

小区多名业主凿穿楼板造出地下室 将地下车库变成私宅

潇湘晨报 浏览 20443

“四十不惑”的吉利 信力不信命

网易汽车 浏览 3390

沉默的荣耀大结局前瞻,最惨角色出炉,果然不幸的人各有各的不幸

娱乐圈笔娱君 浏览 4661

山东加时105-99福建取4连胜,陶汉林19+10,邹阳空砍28+8

懂球帝 浏览 3624

岚图汽车2025年交付150169辆 同比增87%

网易汽车 浏览 3731

招股书里的MiniMax:当聪明人决定不再为巨头打工

华尔街见闻官方 浏览 3742

针对俄白联合军演 美军福特号航母驶入挪威奥斯陆峡湾

每日经济新闻 浏览 4381

特朗普宣布延长对伊朗停火

CCTV国际时讯 浏览 1756

领克900大五座正式上市 限时售价25.48万起

网易汽车 浏览 1584

71岁TVB女星与老公,经历流产后决定不生育

TVB剧评社 浏览 3163

中国人工智能50强,寒武纪、摩尔线程、沐曦股份位列前三

红星资本局 浏览 3545

金价暴跌后实探北京金店:有消费者拖行李箱“抄底”,回收变现需排队3个半小时

红星新闻 浏览 3347

美联储新主席是鹰是鸽

北京商报 浏览 3399

有银行今年降了七次!存款利率又双叒下调

21世纪经济报道 浏览 4627

2026支付宝集福最大亮点:新增“健康福”红包,由蚂蚁阿福发放

澎湃新闻 浏览 3384

亚马逊AWS将部署英伟达Groq LPU与超百万块GPU

IT之家 浏览 2641
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1