关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4686人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

台大与中研院突破:新型防御技术实现AI深度内容遗忘

科技行者 浏览 3576

美媒称沙特强烈游说特朗普对伊朗动手 沙特坚决否认

环球时报国际 浏览 43281

美职联季后赛东部对阵:迈阿密国际VS纳什维尔,赛制三局两胜

懂球帝 浏览 4644

广西平果球员:俱乐部没找我们签字,解散都是从网上知道的

懂球帝 浏览 3848

针对“美式讹诈”:中国为何率先发动反制?

浏览 8230

"台独"分子沈伯洋十分担忧求助台陆委会:不敢离开台湾

看看新闻Knews 浏览 15225

首搭纯电quattro 奥迪E5 Sportback售23.59万起

网易汽车 浏览 5409

赏叶季人生照片拍摄指南.PDF

时尚COSMO 浏览 3541

初夏穿衣千万别发愁,看看这些日常穿搭,减龄舒适又显身材

静儿时尚达人 浏览 1240

美团、京东外卖、淘宝闪购集体声明:自愿执行

中新经纬 浏览 3228

看到洪水冲毁花莲桥梁大声讪笑 台官员被批"冷血"

澎湃新闻 浏览 6622

地缘因素引爆大宗狂欢!机构上调金价目标至5000美元,白银飙涨近8%,铜价再创里程碑

第一财经资讯 浏览 3582

内塔尼亚胡:加沙地带停火将很快进入下一阶段

环球网资讯 浏览 3979

你恐慌我贪婪!约500亿资金借道ETF蜂拥进场,主力机构正重金下注这些板块(附名单)

每经牛眼 浏览 4623

翻拍一部剧,有这么难吗?

时尚COSMO 浏览 3492

尼日利亚主帅:民主刚果在点球大战时使用巫师做法,胜之不武

懂球帝 浏览 4222

苹果iPhone 17e首次支持eSIM!单SIM卡+eSIM/双eSIM

快科技 浏览 2952

郑爽新账号遭封禁,晒自拍一个细节被人认出,疑似穿男友衣服出镜

萌神木木 浏览 3553

灵感集结,能量共振

时尚COSMO 浏览 3677

国产自主研发喷气式飞行背包进入小批量生产阶段

IT之家 浏览 4274

1-9月百万级豪车销量:奔驰3款入榜,奥迪出局,仰望U8苦苦支撑?

AGKC阿贵艺车 浏览 4446
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1