关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者4443人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

冬天就要和金靖一样穿得暖呼呼的

时尚COSMO 浏览 3609

红果年度男演员排名出炉,刘萧旭碾压登顶

洲洲影视娱评 浏览 3583

孔蒂:球迷应忽略球队的谣言;欧洲裁判比意甲好?我不聊这个

懂球帝 浏览 4392

售价8.88万起 RELY威麟R08上市

功夫AUTO 浏览 5455

2号种子险爆冷!张本智和打满5局逆转日本悍将,8强战约战勒布伦

乒谈 浏览 4470

穿黑裤子别只会搭白T恤!看看这些显瘦的搭配,高级感拉满

静儿时尚达人 浏览 1292

阿里正在开发开发最新AI编程工具「秒悟Meoo」

三言科技 浏览 2648

他陪了林青霞21年,眼睁睁看着她嫁给别人

二妹扯娱 浏览 4516

i茅台1499元直销飞天茅台“秒空”,每5分钟补货仍遭疯抢

红星资本局 浏览 3664

肖荣基带肖思远的照片亮相九三阅兵

环球网资讯 浏览 4644

NASA好奇号从夏普山发回全景图,展示火星崎岖地貌

IT之家 浏览 3659

被霍尔木兹海峡"困"住 中国货代2周损失140万焦头烂额

新京报 浏览 116648

中方提醒中国游客避免前往日本 日媒:或造成重大影响

环球网资讯 浏览 43990

双11|| 今年我只想回购这些!

黎贝卡的异想世界 浏览 4565

实拍斯巴鲁PERFORMANCE-B STI概念车:传奇随时可以复活,无奈量产成本太高

驾仕派 浏览 4374

她复出拿奖,这次没人笑得出来

独立鱼 浏览 4330

特朗普宣布将亲自设计战列舰:我是一个非常有审美的人

澎湃新闻 浏览 32211

舞蹈与千年古镇碰撞 第二季新市古镇舞蹈艺术季启幕

国是直通车 浏览 4524

章泽天给所有想嫁豪门的女人上了一课

白面书誏 浏览 4312

美国安局利用境外品牌手机 网攻中国国家授时中心

央视新闻 浏览 8282

女人老了别瞎穿,记住“衣不紧身,裙不上膝”,才是真的优雅

静儿时尚达人 浏览 4287
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1