关闭广告

Transformer开山论文惊天"翻车"?图与代码不一致,神秘bug看傻了

新智元15037人阅读


新智元报道

编辑:编辑部

【新智元导读】图与代码不一致的论文,很「常见」,不过提出了Transformer的开山鼻祖论文,竟然也出现了同样的错误?

今天,AI圈被一个惊天「翻车」刷屏了。

谷歌大脑的NLP奠基之作、提出Transformer架构的开山鼻祖级论文 《Attention Is All Your Need》 中的图,被网友扒出与代码并不一致。


论文地址:https://arxiv.org/abs/1706.03762

自2017年问世以来,Transformer已经成为AI领域的基石王者。就连大红大紫的ChatGPT真正的幕后大佬也是它。

2019年,谷歌还专门为它申请了专利。


归宗溯源,现在各类层出不穷的GPT(Generative Pre-trained Transformer),都起源于这篇17年的论文。

据Google Scholar,截止目前,这篇奠基之作已有7万多次的引用。


所以,ChatGPT的奠基石都不稳了?

作为「开山鼻祖」的论文,结构图竟是错的?

Lightning AI创始人、机器学习研究者Sebastian Raschka发现,这篇论文中Transformer的图是错误的。


图中被圈出的地方,LayerNorms是在注意力和全连接层之后。在残差块之间放置层归一化,会导致输出层附近参数的预期梯度很大。

而且,这也与代码 不一致。



代码地址:https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e

不过有网友指出,Noam shazeer在几周后对代码进行了纠正。



随后,Sebastian称,在论文Layer Normalization in the Transformer Architecture中,Pre-LN表现得更好,可以解决梯度问题。


这是很多或者大多数架构在实践中所采用的,但它可能导致表征崩溃。

如果层归一化在注意力和全连接层之前被放置在残差连接之中,就会实现更好的梯度。


Sebastian提出,虽然关于使用Post-LN或Pre-LN的讨论仍在进行中,但也有一篇新论文提议把二者结合起来。



论文地址:https://arxiv.org/abs/2304.14802

在这种双残差Tranformer中,表征崩溃和梯度消失的问题都得到了解决。


网友热议

针对论文中的疑点,有网友指出:中间不是已经有了PreLN和PostLN了吗?

Sebastian回答说,自己也觉得有点奇怪。或许2nd LN指的是最后一个输出层,而不是每个transformer块,但他对此也不确定。


有网友表示:「我们经常遇到与代码或结果不匹配的论文。大多数就是出于错误,但有时也会让人很奇怪。而这篇论文已经流传甚久了,为什么这种问题此前从没被人提出过,这真的很奇怪。」


Sebastian表示,公平地讲,最原始的代码是和图片一致的,但他们在2017年修改了代码版本,却没有更新图片。所以,这很令人困惑。


有网友表示,已经有论文在NormFormer中展示了一个不太复杂的架构,而他的团队最近也证实了他们的结果。而ResiDual论文没有在任何地方提到NormFormer,这让人很惊讶。


同时,评论区不断出现网友证实:Transformers中使用的LN,与CNN中使用的方式并不同。



所以,论文真的存在漏洞,还是乌龙事件?

让我们静观后续。

参考资料:

https://twitter.com/rasbt/status/1655575611979489282

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

梅德韦杰夫:美国蛮横无理 不应跟他们客气

环球网资讯 浏览 15572

夏天衣服不需要买贵但要买对 这几大单品特别实用

Yuki时尚酱 浏览 11283

章子怡结束巴黎行回国!独自拉行李,身材好无妈味

扒虾侃娱 浏览 15885

百慕大短裤,赫本穿的时髦且高级!

Yuki女人故事 浏览 7087

朔尔茨:德国与瓦格纳事件无关 德无意干涉俄内政

环球网 浏览 11698

美国首富研究火箭制造,印度首富大搞新能源,我国首富能干什么?

商媒体 浏览 11949

马英九出席二二八纪念活动,却遭“台独”抗议

海峡导报社 浏览 23140

人工智能时代,应警惕“思维钝化”

环球时报国际 浏览 8758

今日热点:宫崎骏新作即将登陆内地大银幕;小罗伯特唐尼奥斯卡最佳男配角......

伊周潮流 浏览 7604

2024年第一颗大雷爆了?富人收割机,终于割不动了

象视汽车 浏览 9087

东方美打败所有风格,成为今冬最火!

小西的穿搭日记 浏览 9374

开年不足20天,蔚来极氪特斯拉等至少8个新能源车品牌官宣促销

澎湃新闻 浏览 8884

JBD再获阿里、比亚迪等机构投资,累计融资达数亿美金

36氪 浏览 12786

现在嫌他们老,当年追成狗!这些“半老”的男星,当年都是大帅哥

温柔娱公子 浏览 7740

平均每天27项!比亚迪全球累计申请专利超4.8万项

快科技 浏览 8743

香会智库报告偏颇指责中国 中国学者当场反驳

北京日报客户端 浏览 49957

Tiktok在美再遇围剿?弹窗动员1.7亿用户反击,电话轰炸国会办公室

蓝鲸财经 浏览 8508

毒品被混入饼干身体乳试图入境,被海关连续查获毒品走私

趣看热点 浏览 928458

持续“押注”,上海在打什么算盘?

城市进化论 浏览 12759

高股息品种开年一枝独秀 “求稳”成基金当务之急

证券时报 浏览 9087

父亲:我在赖因德斯小时候告诉他,能当上职业球员就不用去学校了

直播吧 浏览 6891
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1