关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4030人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《阿凡达3》第一波真实口碑解禁,国内票价却令人咋舌!

娱乐圈笔娱君 浏览 3533

我玩我的,管你是谁!亏近50%鑫元消费甄选值得“点赞”!

一地基毛 浏览 4035

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

网易汽车 浏览 1017

迷雾里的SHEIN

海克财经 浏览 4105

法拉利战略转型,电动跃马如何取悦中国用户

桑之未 浏览 4387

64岁关之琳现身南京眼镜店,与老板娘喝下午茶

涵豆说娱 浏览 4433

罗永浩炮轰电信宽带缩水:再不解决,就要在网上发疯了

观察者网 浏览 3498

关键时刻伊朗欧盟关系生波澜 欧盟"站队"美以惹怒伊朗

澎湃新闻 浏览 5360

冬天也想穿裙子!附不同温度的穿搭公式

黎贝卡的异想世界 浏览 3858

李书福罕见发声,吉利豪掷20亿“苦练安全内功”

华山论剑 浏览 3628

买 CPU 送 PS5?实测英特尔第三代 Ultra ,核显强得不像话

爱范儿 浏览 2908

特斯拉大涨超3%创年内新高,AI叙事主导涨势

华尔街见闻官方 浏览 3427

陈行甲已到新东方报到!此前俞敏洪宣布年薪150万聘请其为总顾问,并称加入恒晖基金会

封面新闻 浏览 2993

龚俊《暗河传》首波口碑出炉了!现场观众的评价“一针见血”

娱乐圈笔娱君 浏览 4195

上海网友在日料店里吃出蛆虫 蛆虫还在炸鸡上蠕动

极目新闻 浏览 22553

迟重瑞妻子陈丽华去世,温馨全家福曝光

小兰聊历史 浏览 1666

零百加速2.5s 法拉利Luce将于5月首发

车质网 浏览 2324

日本外务省高官今日访华 将解释高市早苗言论

界面新闻 浏览 44078

半导体封测第一股,进击汽车电子!

飞鲸投研 浏览 3093

美防长抨击美军士兵肥胖后 一张照片火了

环球网资讯 浏览 8613

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

扬子晚报 浏览 8959
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1