关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4293人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全国高校最强国产算力:“致远一号”搭载1024张华为昇腾910B

IT之家 浏览 3491

尘埃落定!全部划归国资!许家印的“御用包工头”被掏空家底

壹只灰鸽子 浏览 4319

今年冬天最时髦保暖的4组搭配,照着穿美出新高度!

LinkFashion 浏览 2999

应聘者被骂「吃的不如狗」?格力回应;市占率存疑?影石回应市占率下滑及大疆价格战;零跑汽车辟谣将被一汽集团收购:消息不实丨雷峰早报

雷峰网 浏览 3859

xbench实验室发布:如何让AI代理真正走进普通用户的日常生活?

科技行者 浏览 2965

美国贸易代表:想和中国再谈谈 但不谈稀土

澎湃新闻 浏览 20392

央视主持人海霞因争议遭除名,引发主持界讨论

史鹷的生活科普 浏览 3054

吉利银河V900预售31.98万起 规模效应能否护航?

网易汽车 浏览 3271

苹果供应链大动作:部分Mac Mini生产今年将从亚洲转移到美国

IT之家 浏览 2582

D系列首款产品 零跑D19将于12月28日上市

车质网 浏览 3528

特斯拉全球第900万辆电动车在上海超级工厂下线

特斯拉 浏览 3284

卓正医疗通过IPO备案:年营收6.9亿 腾讯与H Capital是股东

雷递 浏览 4941

51岁周迅又穿成人间香奈儿,这个搭配思路确实好用

黎贝卡的异想世界 浏览 4323

“乔治·华盛顿”号航母进入南海 “尼米兹”号航母同日离开

环球网资讯 浏览 3774

余承东展示鸿蒙智行门锁安全设计:安全是最大的豪华

三言科技 浏览 4228

男子强奸大嫂出狱再杀人案启动再审 高院披露详情

南国今报 浏览 14918

10位院士与会 2025中国自动化大会成功举行

网易科技报道 浏览 4325

窦骁何超莲国外被偶遇!女方冲浪心情大好,窦骁喝咖啡满脸愁容

萌神木木 浏览 3927

国内牛肉价格稳健背后

北京商报 浏览 3831

华境S登场在即 手捧华为智能全家桶走入寻常百姓家

网易汽车 浏览 2615

自从养成这个小习惯,生活一下子好起来了

黎贝卡的异想世界 浏览 1298
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1