TransformerのSelf AttentionのQKVを直感的に解説する - Qiita

こんにちは、DeNAでデータサイエンティストをやっているまつけんです。 今回は、Transformerの中で重要な役割を果たしているSelf Attention、特にQKVの仕組みについて直感的に理解できるように解説してみます。 Transformer、特にGPTなどの生成...