关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4006人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

老己,买点什么犒劳辛苦了一年的你?

时尚COSMO 浏览 3481

萝卜快跑计划将业务扩展至澳洲和东南亚

盖世汽车 浏览 4871

宇树科技澄清不实信息

第一财经资讯 浏览 3080

特朗普称实时观看马杜罗被捕 行动部署“数量庞大”空中力量

新京报 浏览 3254

雷军直播拆车,榜一大哥狂送“半辆SU7”

麦浪的玩车之家 浏览 3323

日产全新中大型SUV曝光!配激光雷达+800V平台,增程/纯电双动力

小史谈车 浏览 3595

新华社权威快报|中国第42次南极考察队从上海起航

新华社 浏览 4001

报道称美方将启动关键矿产储备计划 中方回应

财联社 浏览 6559

荷媒:阿贾克斯希望租借津琴科,已与阿森纳基本达成一致

懂球帝 浏览 3186

一个时代审美的终结:美人何晴,温柔亦有筋骨

仙女事件簿 浏览 3470

乐摩科技八成设备“躺”在影院

北京商报 浏览 3753

点一桌子菜只吃几口,39岁杨幂揭开内娱现状,没胃口更没活人感

萌神木木 浏览 3192

3万月薪急招董秘!安徽五粮液大商要港股IPO?95后海归接棒,一天卖酒30万瓶

时代周报 浏览 3151

领克10/领克10+全球首秀 1秒补能2公里/3.2秒破百

网易汽车 浏览 1644

赵露思这段戏火了,陈伟霆当初没说错

刘蕳爱下厨 浏览 4576

国亮新材IPO:行业产能过剩、竞争对手强大,未来发展出路在哪里

览富财经网 浏览 3968

湾区晚会名场面:小沈阳和女儿同框,肖战台下合照,歌手真唱翻车

萌神木木 浏览 3954

警方通报小米成都车祸: 驾驶员涉嫌酒后驾驶

网易汽车 浏览 4340

斥资5.6亿,看完《惊蛰无声》预告片,我想说:张艺谋又赌赢了!

娱乐圈笔娱君 浏览 3075

双11|| 今年我只想回购这些!

黎贝卡的异想世界 浏览 4190

父母先后失联兄弟流浪4岁弟弟又失踪 36年后母子团圆

红星新闻 浏览 8495
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1