关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4396人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国人工智能50强,寒武纪、摩尔线程、沐曦股份位列前三

红星资本局 浏览 3542

700万辆之后 中国汽车出口的“下一程”

车质网 浏览 3565

硬核揭秘!福建舰“一马当先”底气何在

环球网资讯 浏览 3023

胡润榜财富增长较快的雷军李书福,每分钟净赚37万和15万?

BT财经 浏览 4456

渝超北碚队违规使用中乙球员,组委会:正在调查,将及时处理

懂球帝 浏览 4627

斯瓦泰克回复对高芙的连败:交手战绩其实并不重要

网球之家 浏览 3393

万斯:照顾美国老年人比援助乌克兰重要

参考消息 浏览 9366

张之臻冲开门红失利白卓璇弥补遗憾,女单最大冷门成就土耳其历史

网球之家 浏览 3461

限时价17.38万起 "卷王"吉利银河M9上市

网易汽车 浏览 5367

外套里面穿什么?这4款内搭时髦又显瘦!

Yuki女人故事 浏览 6401

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

扬子晚报 浏览 9351

科学家开发“神经蠕虫”,实现颅内电极游走模式

DeepTech深科技 浏览 5468

后瑞幸时代,挪瓦咖啡凭什么冲击行业第二?

有数DataVision 浏览 3839

对标Meta、苹果,Snap十年研发高端AR眼镜定价2195美元

环球网资讯 浏览 171

布拉格队长:下半场我们想踢得更具威胁,但阿森纳太强了

懂球帝 浏览 4391

1.2亿辆车被召回,超半数源于监管调查,车企自查缺陷就这么难?

DearAuto 浏览 4398

每体:多家俱乐部提出租借巴尔德吉,弗里克暂时希望他留队

懂球帝 浏览 4385

媒体:被昔日学生中国超越 欧洲落于人后的悲观正蔓延

澎湃新闻 浏览 6570

理想汽车2025年12月交付44,246辆 累计交付量突破150万

网易汽车 浏览 3748

德约科维奇发布退赛声明令人担忧,身体康复状况存疑

网球之家 浏览 3624

国常会重磅部署!

数据宝 浏览 4455
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1