关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者2929人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

苹果M5芯片,击败高通新旗舰

半导体行业观察 浏览 4356

杰伦-约翰逊登顶老鹰队史三双榜 “新鹰王”已悄然诞生

仰卧撑FTUer 浏览 3579

刚刚 | “死了么”APP征名!

天津广播 浏览 3116

OpenAI ChatGPT自动切换严格模型处理情感话题,用户却不知情

IT之家 浏览 4958

“杭州湾揽胜”杀到!极氪8X的差异化优势是啥?卖这个价必火

蜗牛车志V 浏览 3236

投资人接连上门!肿瘤科研成果用于皮肤修复,重庆这家公司成立一年估值3亿

时代周报 浏览 4135

储能内卷的标准样本:黑马果下科技,究竟是如何速成的?

赶碳号 浏览 3230

数百美军从卡塔尔的基地撤离 五角大楼认为战争或持续超12天

极目新闻 浏览 2591

哈梅内伊次子接任伊朗最高领袖:一直身居幕后

极目新闻 浏览 2303

经纪人:公平地对待库明加 考虑当下就给球员选项 考虑未来就加钱

直播吧 浏览 5013

固态电池瓶颈技术取得重大突破!

电动知家 浏览 4949

蔚来推新ES6 30万台纪念版,整车售价34.98万元

财闻 浏览 3638

库克将正式卸任苹果CEO:创造4万亿帝国 访华达20次

澎湃新闻 浏览 30920

XREAL启用上海浦东全球总部,明年推出首款Android XR系统AR眼镜

IT之家 浏览 4090

敛财4.49亿"老虎"王波被判死缓:长期对其子失管失教

政知新媒体 浏览 9026

万科的“至暗时刻”

翠鸟资本 浏览 4143

《731》票房破4.1亿,豆瓣却差评如潮,终于理解吴京这段话

娱乐圈笔娱君 浏览 5006

全世界门槛最高的舞会,投胎大赛赢家都有谁?

FUFASHION 浏览 3434

米体:尤文自2019年起已完成四次增资,总额接近10亿欧

懂球帝 浏览 3794

股价连跌6天,但泡泡玛特却在全球狂飙!

正解局 浏览 4204

鸣鸣很忙明天上市:获腾讯淡马锡等2亿美元融资 市值将超800亿

雷递 浏览 3024
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1