关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3483人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

白银50天涨逾80%,疯狂程度远超黄金,历史上爆炒白银往往预示贵金属牛市已到高潮,这次有何不同?

每日经济新闻 浏览 2648

酷睿Ultra 7 255H实战阿里Z-Image-Turbo大模型:1分钟极速出图

IT之家 浏览 3002

短剧男主遇上长剧男主,谁是天然帅哥谁是滤镜美男,差距一目了然

娱乐圈笔娱君 浏览 3233

杨乐乐一个人回娘家过年!母亲住平价小区

凉湫瑾言 浏览 2094

AI 正在接管代码,AWS 首席布道师却说:开发者的未来在「沟通」

极客公园 浏览 3671

五到十二:财务管理不善如何将狼队置于危险境地

绿茵情报局 浏览 2511

德媒封面:5位欧洲领导人手持武器 配文"唐纳德够了"

每日经济新闻 浏览 22622

西安小伙骑小黄车抵达三亚:29天骑行3500公里瘦20斤

极目新闻 浏览 6870

大爆冷!北京末节被轰30-13崩盘负天津 赵睿复出13分杰曼8中1

醉卧浮生 浏览 2516

打破垄断,光模块巨头,利润大增300%!

飞鲸投研 浏览 2182

匹克被指要求拒绝降薪员工写检讨否则就停薪 当地回应

上游新闻 浏览 8988

全球首座“来电岛”落地青岛:无人车住进“无人家”,一座城与新产业的双向奔赴

风口财经 浏览 235

法拉第未来 Super One 迈入批量试制及生产阶段

IT之家 浏览 3539

用了8年还心动,这笔钱是花得真值啊

黎贝卡的异想世界 浏览 760

刘强东又拿下理想,京东汽车靠谱吗?

正在说车 浏览 2911

森保一:若球迷都穿巴西球衣来看球,那我们恐怕很难赢

懂球帝 浏览 3806

宗馥莉辞职41天后 有经销商收通知:明年继续卖娃哈哈

每日经济新闻 浏览 6727

上海81岁外公卖房还债租房照顾2个未成年外籍外孙女

大风新闻 浏览 112826

杨幂刘亦菲后同桌零互动,深扒两人闹僵原因

萌神木木 浏览 3013

小伙夜骑疑与黄麂相撞 小伙断了2根骨头黄麂仍在救治

极目新闻 浏览 8136

唐嫣分居风波后首露面,穿西装出席女性对话会,男方IP显示北京

萌神木木 浏览 3651
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1