关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者797人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

VLOG:直升机博览会初探

新华社 浏览 996

千米高空!跟女兵体验从运20上跳伞

环球网资讯 浏览 18253

科技巨头再投500亿瞄准这个赛道

中国新闻周刊 浏览 727

吕布杀了两名小将为何称为三国第一猛将?以辕门射戟化解刘备与纪灵的争斗

趣看热点 浏览 26425

英媒:面对美国 欧洲领导人"必须学会反击"

环球网资讯 浏览 4881

两双到手!武切维奇17中9拿到18分15板 正负值+16最高

直播吧 浏览 12605

X新CEO:公司改名为体现马斯克美好愿景,不担心Threads的威胁

网易科技报道 浏览 14605

魅族Flyme Auto新增生态用户数在11月首次突破20万

IT之家 浏览 80

哲凯还是谢什科?鲁尼:伊萨克谢什科二选一我也还是会选后者

懂球帝 浏览 820

惨!武术冠军自掏腰包拍武侠片,成本超1500万,4天票房仅169万

靠谱电影君 浏览 944

涪陵榨菜的创业者们陆续退场

斑马消费 浏览 1434

被判无期的原县委书记获减刑:曾在狱中举报300多人

澎湃新闻 浏览 93123

太阳报:曼联预计未来几周官宣前往沙特踢季中赛

懂球帝 浏览 613

4680电池,根本停不下来

汽车公社 浏览 10732

日本新首相上任:首次将新型潜艇纳入国防政策

红星新闻 浏览 907

严打跨境赌博犯罪!起底“周焯华跨境赌博犯罪集团案”

新京报 浏览 12946

因欧盟制裁 普京或将绕行5000公里会晤特朗普

环球网资讯 浏览 4495

《一路繁花2》要封神?5位综艺强者登场,预告连刷4遍不过瘾

娱乐圈笔娱君 浏览 1026

《孤注一掷》票房超《封神》 张艺兴跳鬼畜舞庆祝

萌神木木 浏览 14801

天越冷社交欲望越低,是我的问题吗?

时尚COSMO 浏览 337

要买车的再等等!2024年这10款重磅新车来袭,产品实力太强

阿贵看车 浏览 12638
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1