【論文解説】Sparse Transformerを理解する
さて、今回はOpenAIから提案された、attentionを効率化することで長い系列を取り扱うことを可能にしたSparse Transformerの論文について解説したいと思います。 この仕組みはGP