关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4029人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以色列再次延长对半岛电视台运营禁令

上观新闻 浏览 3053

穿了10年还在火,这件外套买得真值!

黎贝卡的异想世界 浏览 3115

广汽×华为乾崑联合打造 "启境"品牌正式发布

网易汽车 浏览 4858

聚焦2025中国国际数字经济博览会·记者观察|释放数据价值,“乘”出产业转型新动能

纵览新闻 浏览 4109

一场意外的形象崩塌却让他更红了!

伊周潮流 浏览 4151

55岁港星宣萱自曝:放弃结婚,29岁最后一晚哭一天,黄金时代过去

温柔娱公子 浏览 3704

特朗普发文宣称:10项停战条款是“假新闻”

吉刻新闻 浏览 1638

弹无虚发,凯恩德甲18次罚点全中

体坛周报 浏览 3873

大兵压境时忽启谈判 特朗普“葫芦里卖的什么药”

看看新闻Knews 浏览 2962

以色列暗杀伊朗核专家 细节披露

每日经济新闻 浏览 3526

除了阔腿裤,这条裤子今年最流行!

LinkFashion 浏览 2183

NASA阿耳忒弥斯3号SLS火箭芯级启运,为明年发射铺路

IT之家 浏览 1434

俄罗斯核潜艇在北太平洋成功试射超音速巡航导弹

环球网资讯 浏览 4997

这是陈妍希?新剧开播后居然长这样

Yuki女人故事 浏览 3501

耗资3000万,正面对决吴京,我感慨:41岁谢苗终于迈出了这一步

靠谱电影君 浏览 3157

解锁刘浩存的「红运」密码 | 高清镜头后的底气

时尚COSMO 浏览 1108

牛弹琴:2025年最后1个月大戏上演 印度迎最重要客人

北京日报客户端 浏览 35547

标杆的智能化进阶 试驾一汽-大众全新速腾L

车质网 浏览 4229

美伊协议草案或将在数小时内公布

财联社 浏览 244

在韩国创特斯拉最低价 "廉价版"特斯拉亚洲开售

电动知家 浏览 3065

U23亚洲杯1/4决赛对阵出炉!U23国足迎战乌兹别克

体坛周报 浏览 3105
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1