关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11174人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2023长城汽车车多势重,围绕“智能新能源”赛道发力

天天汽车 浏览 12811

22名将领将退役 阿根廷总统米莱对军方“大换血”

环球网资讯 浏览 13071

河北女子每天通勤5小时到北京上班:坚持了3年 月薪近4万

潇湘晨报 浏览 104191

狗仔曝黄景瑜和热巴年初还在恋爱,两人同游欧洲

不八卦会死星人 浏览 15927

国台办回应"和平统一可能性丧失":民进党代表不了台湾

界面新闻 浏览 77204

林俊贤景区打工,如今成了这样

动物奇奇怪怪 浏览 1007

阿门-汤普森:从小一直看球 每年都买联盟通 它有点偏贵

直播吧 浏览 15343

钻石价格大跌,只怪年轻人不买了?

新品略财经 浏览 16036

特斯拉二季度交付量再创新高?股价年内已飙升逾110%

财联社 浏览 15574

四个男顶流火了之后怎么变丑了?

想刊刊 浏览 13161

​中年女人要想穿出女神范,选择时尚单品时,注重展现气质美

静儿时尚达人 浏览 11323

河南洛阳卖菜大爷挣21.05元被罚11万 法院判了

环球网资讯 浏览 92082

看到郭宇欣跑龙套旧照,站杨紫身边一点不输,才知啥叫小红靠捧

温柔娱公子 浏览 649

迪士尼被曝将继续裁员4000人,2月宣布公司战略重组

澎湃新闻 浏览 19058

33岁的张一山惊艳亮相,杨紫这次真得避嫌了?

探长影视解说 浏览 686

NBA战报:猛龙112-101骑士,埃文-莫布利29分

懂球帝 浏览 762

慕安会召开前特朗普提"北约过时" 欧洲盟友"心情复杂"

新民晚报 浏览 80573

OpenAI警告:版权打击可能摧毁ChatGPT

智通财经 浏览 12698

科氪 | 荣耀MagicOS 10重构智能体验:AI成伙伴,全品牌互联破冰

36氪 浏览 852

央行重磅会议释放新信号!下半年行情开门红可期?

每日经济新闻 浏览 15677

厦门信达:债务人西安迈科破产重整,公司申报债权3.95亿元

界面新闻 浏览 12723
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1