Multi-Head AttentionとScaled Dot-Product Attentionの全て:Transformerの核心を徹底解説
この記事では、Transformerの中心的な役割を果たすMulti-Head Attentionについて解説する。 Transformerのほかの機構の詳細な解説はせず、完全にMult