关闭广告

NYU研究揭示：模型宽度与能力非线性相关

科技行者4063人阅读

当我们使用ChatGPT或其他大语言模型时，可能很少想过这样一个问题：这些模型内部那些看似强大的组件，真的在高效地工作吗？就像一家大公司虽然员工众多，但可能存在大量的"摸鱼"现象一样，人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究，就像给大语言模型做了一次"内部审计"，专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究（论文编号：arXiv:2510.00537v1），首次系统性地揭示了一个令人意外的现象：当我们让这些网络变得更宽时，新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房，老板以为增加更多的炉灶就能提高出菜效率，但实际情况却是新增的炉灶大多数时间都在闲置，真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具"，发现了大语言模型中存在的这种"不对称浪费"现象，这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络，为什么它如此重要？

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

对话工程院院士王浩：我国独创的“河湖长制”值得向“全球南方”国家推广

封面新闻浏览 4049

抓走马杜罗的美军三角洲部队曾两次大败而归

扬子晚报浏览 10043

马斯克称赞：可能在5年内超越！

都市快报橙柿互动浏览 4109

精彩推荐

4名游客遭马蜂袭击送医抢救：满头被蜇头发都剃光了

极目新闻浏览 7924

媒体：一份非官方的美国就业数据把美国投资者吓坏了

财联社浏览 8865

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

潇湘晨报浏览 8510

上班族秋天穿什么？衬衫为主、外套选择基础款，得体又大方

静儿时尚达人浏览 6416

随着北京险胜，辽宁大胜，CBA最新积分榜：前四皆9胜2负排名有变

侃球熊弟浏览 3254

杭州有人家三天“闯”进3条眼镜蛇蛇身约小孩手腕粗

钱江晚报浏览 20805

《今日说法》主持人李晓东从央视离职曾买茶叶被骗

封面新闻浏览 9491

插混车纯电续航超过210km，增程车怎么办？

汽车公社浏览 3210

嫂子发文承认曾和顶流在一起，还好聚好散？

仙女事件簿浏览 2721

媒体：安世中国第3次硬核回击荷兰已获国家强势撑腰

看看新闻Knews 浏览 9293

北京门店全关！狂揽千亿的小火锅开始洗牌了

餐饮老板内参浏览 3200

欧盟行业代表：中方出手反制欧盟法国这一次受伤最重

澎湃新闻浏览 31574

量产版明年上市 AUDI E SUV概念车亮相

车质网浏览 3849

奇瑞汽车宣布三大升级计划，2026年超35款车型将搭载猎鹰智驾

IT之家浏览 3189

四川舰海试中方捷报频传美破防咬定中国有8艘＂航母＂

空天力量浏览 33907

媒体：伊朗战争或成美国第一次不敢打接触战的战争

澎湃新闻浏览 1594

近2万亿债务推进出险房企提速化债

北京商报浏览 3889

直播间人气冲2万，云朵当众叫爸爸

乡野小珥浏览 3929

国投瑞银被起诉背后

时代周报浏览 3108

吴尊元旦晒全家福！一家四口笑容灿烂温馨幸福

失宠的小野猪浏览 3280

熊园：9月财政有喜有忧，今年预算能完成吗？

首席经济学家论坛浏览 4242

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1