关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者4063人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

4名游客遭马蜂袭击送医抢救:满头被蜇 头发都剃光了

极目新闻 浏览 7924

媒体:一份非官方的美国就业数据 把美国投资者吓坏了

财联社 浏览 8865

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

潇湘晨报 浏览 8510

上班族秋天穿什么?衬衫为主、外套选择基础款,得体又大方

静儿时尚达人 浏览 6416

随着北京险胜,辽宁大胜,CBA最新积分榜:前四皆9胜2负 排名有变

侃球熊弟 浏览 3254

杭州有人家三天“闯”进3条眼镜蛇 蛇身约小孩手腕粗

钱江晚报 浏览 20805

《今日说法》主持人李晓东从央视离职 曾买茶叶被骗

封面新闻 浏览 9491

插混车纯电续航超过210km,增程车怎么办?

汽车公社 浏览 3210

嫂子发文承认曾和顶流在一起,还好聚好散?

仙女事件簿 浏览 2721

媒体:安世中国第3次硬核回击荷兰 已获国家强势撑腰

看看新闻Knews 浏览 9293

北京门店全关!狂揽千亿的小火锅开始洗牌了

餐饮老板内参 浏览 3200

欧盟行业代表:中方出手反制欧盟 法国这一次受伤最重

澎湃新闻 浏览 31574

量产版明年上市 AUDI E SUV概念车亮相

车质网 浏览 3849

奇瑞汽车宣布三大升级计划,2026年超35款车型将搭载猎鹰智驾

IT之家 浏览 3189

四川舰海试中方捷报频传 美破防咬定中国有8艘"航母"

空天力量 浏览 33907

媒体:伊朗战争或成美国第一次不敢打接触战的战争

澎湃新闻 浏览 1594

近2万亿债务推进 出险房企提速化债

北京商报 浏览 3889

直播间人气冲2万,云朵当众叫爸爸

乡野小珥 浏览 3929

国投瑞银被起诉背后

时代周报 浏览 3108

吴尊元旦晒全家福!一家四口笑容灿烂温馨幸福

失宠的小野猪 浏览 3280

熊园:9月财政有喜有忧,今年预算能完成吗?

首席经济学家论坛 浏览 4242
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1