关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4318人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

俄美乌新一轮三方会谈将举行 只剩一个问题却是死结

新民晚报 浏览 6405

GEO炒出了个大乌龙,301171,20CM跌停!

看财经show 浏览 2996

世体:拉波尔塔率队访问布鲁日,参加接待仪式并漫步市中心

懂球帝 浏览 3987

频曝食安问题、高管IPO前套现1.3亿!鸣鸣很忙上市太急?

互联网那些事 浏览 3155

中国武器出售清单大曝光:有了这些你就是大爷

浏览 7911

市价不到两百的护眼灯校园采购价却达七八百 媒体调查

澎湃新闻 浏览 22642

做企业,是一场反人性的修炼

创业家 浏览 4088

新年资金入市!超450亿公募资金到位,“万亿活水”在路上

券商中国 浏览 3191

生物芯片上海国家工程研究中心四川分中心在成都揭牌

封面新闻 浏览 4193

鸿蒙智行全年累计交付589107台 12月单月交付89611台

网易汽车 浏览 3441

38岁后单赛季为意甲升班马攻入至少4球,瓦尔迪是历史第二人

懂球帝 浏览 3661

一家三口被撞身亡案将宣判 家属悔恨当天喊他们来吃饭

极目新闻 浏览 13793

内娱女明星手撕导演,翻车了?

独立鱼 浏览 3168

内饰迎巨变 新款奥迪Q4 E-Tron最新消息曝光

乐选爱车 浏览 1002

CBA战报:吉林82-77宁波取CBA3连胜,姜伟泽21+2+5

懂球帝 浏览 3477

引领效率革命、深挖万亿红利,京东工业的价值逻辑

尺度商业 浏览 3546

李婉华:但凡他跟我求婚,我都不会另嫁他人

艳儿说电影 浏览 4264

票房炸裂,口碑崩塌,《731》到底值不值得我们为它买单

最爱酷影视 浏览 5081

“大起”被防住后,下周A股怎么走?

每经牛眼 浏览 3074

44岁LV"太子妃"怀上第6胎震动时尚圈 曾是俄罗斯贫民

新民周刊 浏览 13793

美国父亲在家喝酒将2岁女儿留车内致身亡 入狱前自杀

红星新闻 浏览 10698
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1