关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4158人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

米体:罗马全力追求卡拉斯科,已向利雅得青年提交首份报价

懂球帝 浏览 3197

干货!拆解欧阳娜娜“美商开挂”的3个核心思路

黎贝卡的异想世界 浏览 3015

芯片圈“大佬”IPO梦碎,牵出千万受贿案!

野马财经 浏览 4370

或命名为T1T 奇瑞全尺寸SUV谍照曝光

车质网 浏览 3214

面对全新应用场景还有推理能力 英伟达发布全新物理AI模型

网易汽车 浏览 3320

国际油价上涨谁会是赢家?外媒:美国石油商“直接受益”,跨国油企希望回归平稳

环球网资讯 浏览 2322

惊天大冷!足总杯卫冕冠军水晶宫1-2遭第六级别球队麦克斯菲尔德淘汰

懂球帝 浏览 3326

印度阵风又被击落,为啥法国战机如此不堪?

浏览 8161

特朗普:美对贩毒集团陆地打击行动可覆盖墨西哥等地区

上观新闻 浏览 3218

"95后"情侣开房车旅行卖咖啡赚钱 月入5万后越走越远

中国新闻周刊 浏览 8819

这几件单品太火了,今年流行的风格都离不开它

LinkFashion 浏览 411

少年抢劫2600元并参与5次殴打他人获刑11年 家属申诉

潇湘晨报 浏览 9012

新机发售之际,荣耀手机影像专家言论争议不断、引翻车质疑

观察者网 浏览 4364

白百何声明翻车!晒对接聊天记录漏洞百出,工作室评论区沦陷

萌神木木 浏览 4141

杨旭文不再隐瞒!公开回应与陈若琳的关系?

喜欢历史的阿繁 浏览 2901

伊朗多座储油设施遭袭 美官员"甩锅":都是以色列干的

极目新闻 浏览 33790

冲着陈晓去看《大生意人》,却被满脸狰狞的两位东北跨界演员惊艳

娱乐圈笔娱君 浏览 3084

探展2025世界制造业大会:解锁“人机共融”新图景

中国商报 浏览 5130

控股股东拟出让超1亿股!川股德龙汇能筹划控制权变更 今年股价涨幅近60%

红星资本局 浏览 4311

伊朗曾组建反间谍机构 结果最后发现负责人就是以间谍

扬子晚报 浏览 44331

轮圈选择丰富/金标开放选装 新一代SU7更多细节

网易汽车 浏览 3101
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1