关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4695人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

过渡期临近,银行业首席合规官纷纷“就位”

21金融圈 浏览 3564

马英九首度"自嘲"回应赖清德:我还要救援几次

台海网 浏览 19017

以方扣押“全球坚韧船队”后 多国船员被驱逐遣返

环球网资讯 浏览 4772

帽子戏法,梅西当选阿根廷3-0阿尔及利亚一役本场最佳球员

懂球帝 浏览 156

进口车大崩盘,出口车三连冠!中国汽车反杀外国车

象视汽车 浏览 2849

为异种器官移植提供强有力“猪队友” 上海SPF猪赋能国家科技重大专项

上观新闻 浏览 3376

大疆汪滔十年后首次采访:世界蠢得不可思议,我也是

雷科技 浏览 2043

多家银行关停旗下App,银行App关闭潮意味着什么?

江瀚视野 浏览 4763

德邦快递实力夺魁:斩获中国跨境电商物流“头程物流标杆企业”奖项

中国经济时报 浏览 4126

开演唱会!加入新公司!赵露思迈入新篇章

勺哥乡村味道 浏览 4363

具身智能老炮再获数亿融资,移动多臂机器人已批量工业落地|36氪首发

36氪 浏览 3939

特朗普为美军袭击委内瑞拉附近海域“贩毒船”辩护

环球网资讯 浏览 4638

首席炒黄金期货大赚14亿?国海证券前固收首席靳毅辟谣称已报警

深蓝财经 浏览 4430

今年秋冬最时髦的穿法:外套+连帽卫衣,减龄又松弛!

LinkFashion 浏览 3652

2026年新年首个工作日 中纪委连打4“虎”

南方都市报 浏览 10827

知名女演员邢菲被曝光恋情,更多细节透出

乐悠悠娱乐 浏览 4470

苏亚雷斯:有信心率领亚泰保级

体坛周报 浏览 4605

E句话| 她出来否认丈夫出轨了?

仙女事件簿 浏览 3499

17岁少年网购虚假退货"薅羊毛"获利超400万 被判刑6年

北青网-北京青年报 浏览 7106

暴涨23%!诺基亚获得英伟达投资,AI原生6G通信要来了!

雷科技 浏览 4344

普京:俄罗斯对任何国家都不构成威胁

央视新闻客户端 浏览 9616
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1