关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者2934人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

利雅得胜利客战利雅得体育:C罗缺阵,菲利克斯、马内先发

懂球帝 浏览 2902

王传君影帝封号引发争议,24小时后遭遇令人不适事件

80后房车生活 浏览 3909

记者实测 多地办理电话卡需提供无犯罪证明和银行流水

澎湃新闻 浏览 10189

她连上5次春晚,私下却和恩师同居怀孕被骗流产

律便利 浏览 4117

2025年ETF盘点:冠军花落通信ETF,年度黑马竟是它!十大关键事件影响深远

每经牛眼 浏览 3318

闪电快讯|海信发布影游旗舰E8S,RGB-Mini LED价格下探

电厂 浏览 3100

46岁董璇被曝怀二胎,本人现身机场脱外套辟谣,小腹平坦状态超好

扒虾侃娱 浏览 4177

特斯拉前全球销售主管爆猛料

电动知家 浏览 3545

"闪赎闪卖"一座万达广场 王健林也玩起"资本游戏"?

BT财经 浏览 3538

18.51亿元!这家信托100%股权,第三次挂牌!

券商中国 浏览 3204

《骄阳似我》顾漫花巨资买《遇见》《信仰》不是为庄序偏爱太明显

亦暖追剧随笔 浏览 3253

两女生称花90多元入住成都民宿 在空调管道发现摄像头

极目新闻 浏览 106660

IU的脸,真的有自己的时间线

时尚COSMO 浏览 1104

宇树科技IPO过会 或成万亿赛道估值标杆

证券时报 浏览 118

2026款比亚迪海豹05 DM-i上市 售价7.98万元

车质网 浏览 3743

BBA大促混战,谁是真性价比之王?

百姓评车 浏览 3361

不止镜头、手柄,OPPO 推出“行业首款”哈苏专业磁吸闪补光环灯

IT之家 浏览 4079

媒体:日本挖到"稀土"想刺探中方反应 中方回一句单句

新民周刊 浏览 5427

补时绝平,曼联终结各项赛事对阵热刺四连败

懂球帝 浏览 3930

卖零食的,上市首日暴涨88%!股价400港元,合理吗

财通社 浏览 2956

柬方:若停火持续72小时 泰国将遣返18名被俘柬士兵

潇湘晨报 浏览 3408
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1