AttentionがないのにTransformerは活躍するのか?!

3つの要点✔️ Transformerのアーキテクチャを変更してMLPのみを使用✔️ Attentionがさほど重要な要素ではないことが判明✔️ 現在のtransformerよりも優れた性能、または同等の性能を発揮Pay Attention to MLPswritten by Hanxiao Liu, Zihang Dai, David R. So, Quoc V. Le(Submitted on 17 May 2021 (v1…