关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技841人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

腾势D9将迎来第30万辆交付

大象新闻 浏览 346

大马丁:作为国脚我已赢得一切 与历史最佳梅西共事让我很感激

直播吧 浏览 19556

“富贵闲人”许绍雄的快乐哲学

仙女事件簿 浏览 851

关晓彤与鹿晗日本过七夕节 路人曝鹿晗宠女友细节

叶公子 浏览 14633

揭秘曾经的中国全民内衣品牌造假:股价闪崩

清流Plus 浏览 27046

手机动辄2亿像素,照片会撑爆内存吗?

中新经纬 浏览 992

E句话| 她也遇到过阴阳剧本?

仙女事件簿 浏览 1022

“中国建议”在达沃斯受欢迎

环球时报国际 浏览 12663

新能源汽车第一城宣布:最高补贴8000元

21财闻汇 浏览 11009

张艺谋新片《狙击手》定档7月30日,网友直呼拍片子的速度很快

趣看热点 浏览 27826

全智贤新剧跌破平台下线,迪士尼2亿投资亏本,业内直言堪称灾难

萌神木木 浏览 1025

广厦险胜北控!两帅不兴奋,朱俊龙功臣待遇,肘子苦笑,晓宇暖心

篮球资讯达人 浏览 19625

美最高法院驳回苹果诉Epic Games案 后者需求也遭驳回

手机中国 浏览 12568

车企6月成绩出炉,多品牌创纪录,极氪、零跑崛起!

电车通 浏览 10907

巴勒斯坦新男模出道 被Bella Hadid认干弟弟

下水道男孩 浏览 16743

魔毯悬架,新的谎话?

虎嗅APP 浏览 14479

未满14岁男孩刺死一陌生男子 作出三种不同版本供述

红星新闻 浏览 11690

10年换一代,奥迪全新Q7测试谍照公布 | 酷乐汽车

CLauto酷乐汽车 浏览 10879

市值20亿,成长空间大的龙头,A股小而美企业名单

资本百科 浏览 12956

台外事部门负责人被指9月曾宴请美官员 美方无人到场

北京日报客户端-长安街知事 浏览 6956

老帅埃里克森:我身患癌症,在最好情况下我还有一年时间

懂球帝 浏览 12832
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1