关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3764人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

智己LS9上市32.28万起 两个Ultra都是高配

网易汽车 浏览 3375

15万也能开出头等舱质感,试驾锐胜M8

只懂车 浏览 3005

国信策略:抢占科技发展制高点

网易财经 浏览 3679

去海外卷,并不是件坏事

虎嗅APP 浏览 3155

今年秋天最流行的穿法:针织+衬衫,时髦又减龄!

LinkFashion 浏览 4131

成为新公路之王!极氪8X预售37.68万元起

网易汽车 浏览 1740

理想超充桩突破2万根

大象新闻 浏览 3041

外媒:俄国防部称击溃一支乌克兰特种部队

环球网资讯 浏览 3530

35岁郑爽近照曝光!脸部又僵又肿网友直呼认不出,彻底成了素人

萌神木木 浏览 2722

影视大佬吴敦离世,贾静雯林志颖发文悼念

素素娱乐 浏览 2407

纯电续航超400公里,上汽大众全新大型增程式SUV ID.ERA 9X申报

IT之家 浏览 2704

零跑Lafa5:一副钢炮的皮,一颗家用的心?

Autolab 浏览 3393

20名以色列被扣押人员将分两批获释

CCTV国际时讯 浏览 3753

历史首次,“三桶油”收盘全部涨停!

红星资本局 浏览 1957

NVIDIA牢牢把握独显市场92%份额!Intel终于突破1%

快科技 浏览 3168

张柏芝不再隐瞒,三胎生父早有答案?

石场阿鑫 浏览 2861

继与霉霉恋情谣言后,里弗斯被传约会网红

艺兔体坛 浏览 2721

黑吃黑!骗走全球36亿的“币圈割王”,被精准猎杀

大猫财经Pro 浏览 2829

有爱,大马丁赛前与家乡球队阿尔多希维的球迷交换球衣

懂球帝 浏览 3725

高德放“榜”30天:百度携程“硬杠”,抖音小红书“包抄”

伯虎财经 浏览 3869

针对其父可能被“身边人”出卖的传言 马杜罗之子回应

上观新闻 浏览 2711
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1