爆点资讯

当我们使用ChatGPT或其他大语言模型时，可能很少想过这样一个问题：这些模型内部那些看似强大的组件，真的在高效地工作吗？就像一家大公司虽然员工众多，但可能存在大量的"摸鱼"现象一样，人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究，就像给大语言模型做了一次"内部审计"，专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究（论文编号：arXiv:2510.00537v1），首次系统性地揭示了一个令人意外的现象：当我们让这些网络变得更宽时，新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房，老板以为增加更多的炉灶就能提高出菜效率，但实际情况却是新增的炉灶大多数时间都在闲置，真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具"，发现了大语言模型中存在的这种"不对称浪费"现象，这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络，为什么它如此重要？

阅读全文

NYU研究揭示：模型宽度与能力非线性相关

马杜罗受审 ...

林允儿回应新...

媒体：中国元...

“2025全...

球员是否因阿...

售28.99...

限量30台仰望U9X将于广州车展亮相

2-0！申花扬眉吐气，掀翻韩国劲旅获首胜，亚冠排名超蓉城进前八

大动作！科技巨头，摊牌了！

卢浮宫盗贼没偷6000万美元钻石其它被盗藏品或被熔化

古二再度放料！秦雯王家卫吐槽出现新人物

曹操出行Robotaxi 2.0已搭载低轨卫星通信，将上线卫星SOS功能

东风日产襄阳工厂启动改造，生产华为赋能的猛士越野车

U23国足防线多人有伤在身，后卫鲍世蒙开场不久伤退

中方回应美100%关税威胁：动辄以高额关税进行威胁，不是与中方相处的正确之道

被判赔偿220万元海底捞＂小便门＂当事人登报道歉

没上映票房就破2400万，邓超加陈凯歌都压不住，国庆档冠军定了？

大S雕像揭幕仪式曝光，S妈具俊晔雨中挽手同行，前夫汪小菲未露面

强调优势的吉利星愿，能否改写A0级市场的“野蛮迭代”

特斯拉“连续5年保费”曝光：保险只要1900？比油车还便宜！

拆解重庆农商行2025年财报：对公发力促增长，零售战略受挫

出生人口跌破800万，养老金怎么办？

杰哈德指责加沙“和平委员会”组成服务于以方利益

一年暴赚233%的新“公募一哥”，新基才刚刚回本

该不该踢双前锋？哲科：我说多了教练要生气

杨振宁17年前的演讲发人深省：争夺国际话语权，需要中国人的创新精神

秋天穿衣没那么难，快从这些穿搭中收获灵感，显瘦又不落俗套

直播|| 春夏百元级首饰，最爱逛的一定有他家！

从50天4场到21天0场！34岁张水华被处分后静悄悄为工作牺牲爱好

杨紫扛剧女王不是白叫的，顶流胡歌也得给她作配