Transformerによる翻訳システム自作; part5 multi layer block

本稿ではEncoderとDecoderをmulti-block化します。これでTransformerの基本的な構造は実装できたことになります。 Encoderでは、Attention → FeedForwardを一つのブロックとして、これを複数個積み上げます。このブロックでは入力と出力の次元は同じなので、ブロックの境目で特に処理が必要になることはありません。 Decod…