关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4291人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

副院长传出不雅视频后赴外地坐诊引争议 当地医院删文

红星新闻 浏览 14460

山东济宁一商家芒果礼盒藏试卷、课本 商家回应

极目新闻 浏览 5860

歼-15舰载战斗机呼啸升空 看战机高速穿山谷

环球网资讯 浏览 4948

网红鹿哈与女友领证结婚,曾自曝7个月赚3500万,鹿晗被波及

扒虾侃娱 浏览 3916

波兰逆转首夺联合杯,本西奇送蛋丝袜仍难救主,瓦林卡被批拖油瓶

网球之家 浏览 3299

深蓝汽车房楠:四载深耕、技术破局、全球化竞争

网易汽车 浏览 1154

AI正在成为“孤独止痛药”,这是社交能力的一场不可逆退化

虎嗅APP 浏览 3269

恩里克:我们在23分钟内丢了3个球?那是对手球员的实力所致

懂球帝 浏览 4238

吴佩慈68岁"婆婆"在美国被捕 儿子靠做"叠码仔"起家

上游新闻 浏览 13988

创三年新低 销量暴跌63% 超越特斯拉难不难?

正在说车 浏览 3844

打破惯例!iPad 12被曝或搭载iPhone 17同款A19芯片

环球网资讯 浏览 3632

更运动 阿尔法·罗密欧Junior运动特别版发布

车质网 浏览 4031

一天两枚火箭发射失利 中国航天科技集团发文回应

每日经济新闻 浏览 7372

石破茂:拥核绝不会给日本带来正面影响

环球网资讯 浏览 3360

巴总理称"将7架印战机炸成残骸" 印方激烈反驳

澎湃新闻 浏览 6087

AI发展日新月异如何跟上变化?徐汇工匠学院人工智能训练师课程助你一臂之力

上观新闻 浏览 3206

帕尔马重逢马佐基,三连升的小将

绿茵情报局 浏览 1640

以高官:内塔尼亚胡判断失误 低估了袭击卡塔尔的后果

澎湃新闻 浏览 26470

股份行AIC扩容至三家

北京商报 浏览 3845

列阵“泰山” 岚图汽车迈入30万辆时代

网易汽车 浏览 3870

热度破5000!李行亮麦琳刚走,又来2大活宝,芒果台又出王炸综艺

娱乐圈笔娱君 浏览 4246
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1