[論文メモ] Masked Autoencoders Are Scalable Vision Learners

arxiv.orgFAIRViTは入力画像をパッチにして入力するがBERTのように一部をマスクし、それを復元する自己教師ありの事前学習。 手法 提案するmasked autoencoder (MAE)について。 encoderとdecoderの入力は非対称。 encoderはマスクされていないパッチのみを入力、decoderはencoderの出力とマスク部分を入力とする。 Masking…