FacebookのDeiT(Data-efficient image Transformers) - Qiita

概要Deitもtransformerベースの事前学習モデルだが、ViTやEfficientNetなどと比較すると、より少ないデータ・少ないパラメタで学習が行えるように「蒸留トークン」という考え方を…