关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3559人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

广汽丰田双向突围,是疯了吗?

汽车K线 浏览 3211

特朗普称是自己让大家变得更富有:我的敌人也过得很好

红星新闻 浏览 20188

美AI裁员潮,大厂慌不慌?

每日资本论 浏览 3424

特朗普弄混格陵兰岛与冰岛 再提北约秘书长叫他"爸爸"

鲁中晨报 浏览 20083

孙东旭卸任东方甄选珠海公司职务

雷达财经 浏览 2846

蔚来乐道汽车迎 11 万台新车交付,距离 10 万台里程碑仅 13 天

IT之家 浏览 3481

2026款小米SU7即将上市!最高纯电续航902Km

小史谈车 浏览 1674

深圳“AI+政务”方案重磅发布:以后办业务,一句话的事!

南方都市报 浏览 1927

o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」

机器之心Pro 浏览 2409

经典重构,法拉利SC40向F40致敬

爱驾天下 浏览 3590

阿里云计算如何让大语言模型吃得更聪明

科技行者 浏览 2557

2025款岚图FREE+新车商品性评价

车质网 浏览 3678

小米电竞鼠标2官宣搭载专属原相全新旗舰传感器PAW3955XM

IT之家 浏览 347

女子代购海外"不老药" 疑遭职业打假人起诉"退一赔十"

大风新闻 浏览 5171

女网红被"开盒"收大量骚扰信息全家被迫搬离 本人发声

环球网资讯 浏览 23815

MINI COOPER限定版上市 限时售21.78万元起

太平洋汽车 浏览 2940

A股利好,一夜之间多家公司密集宣布

21世纪经济报道 浏览 3010

面包界的“隐形冠军”,正在中国闷声发财

虎嗅APP 浏览 2692

币圈大佬的重生:特朗普特赦赵长鹏

节点财经 浏览 3631

国米客战那不勒斯:劳塔罗搭档博尼,德布劳内、巴雷拉出战

懂球帝 浏览 3555

河南田地积水玉米发霉 农民:夏天求的雨下在了秋天

经济观察报 浏览 9503
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1