关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4421人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

谁说了算?泰伦-卢赛前说哈登可以出战,快船官方说卢说错了

懂球帝 浏览 3881

女装品质下降这几年,还好有这些私藏的小众爱牌

黎贝卡的异想世界 浏览 2702

伊朗一间谍组织被瓦解 其主要成员曾多次前往以色列

极目新闻 浏览 3425

阿拉维斯vs西班牙人:德尼斯-苏亚雷斯、阿莱尼亚首发,鲁文-桑切斯、基克-加西亚出战

懂球帝 浏览 4350

在生活的沟壑里,为自己镶嵌星光

LinkFashion 浏览 4536

伊姐周六热推:《长安二十四计》;电视剧《唐诡奇谭》......

伊周潮流 浏览 3218

全红婵还没回国家队!大概率缺席冬训

草莓解说体育 浏览 2907

直击MWC2026|AI重构通信网络,6G“卡位战”提前到来

第一财经资讯 浏览 2830

鹈鹕114-104战胜公牛,锡安复出得18+6,墨菲20+10

懂球帝 浏览 3893

动人无比,豆瓣9.0高分获奖佳作北京首发

幕味儿 浏览 742

欧莱雅中国升级“一代耀一代”科技女生赋能计划

中国新闻周刊 浏览 1559

美国微软公司:10月14日起Windows 10将“停服”

财闻 浏览 4564

或命名为AMG GT SUV AMG纯电SUV谍照曝光

车质网 浏览 4690

美媒为联盟防守球员分档:文班独1档 AD3档 詹杜10档 库里未入榜

颜小白的篮球梦 浏览 5177

60岁无儿无女形象大变的张卫健,经历了什么

草莓解说体育 浏览 4475

2026年国家补贴来了,只需三步,收好这份省钱指南!

贝壳财经 浏览 3639

知名折扣店好特卖被指大量闭店 曾4年开960家

每日经济新闻 浏览 25431

TVB万千星辉奖项出炉!佘诗曼四封视后成赢家,黄宗泽爆冷拿视帝

萌神木木 浏览 3413

中方接连被美国暗中"做局" 两个国家几乎同时对华出手

头条爆料007 浏览 8155

王曼昱横扫李昱谆采访!强调针对+调动状态,回应第三局被追分!

篮球资讯达人 浏览 3427

自由媒体:F1第一季度营收增长53%,考虑加回一场中东分站

懂球帝 浏览 1279
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1