お疲れ様です。画像分類モデルのDeiTについて、使う機会があり内容を調べてみたのでメモ的にまとめておきます。論文 arxiv.org 要約（from ChatGPT）背景 Vision Transformer (ViT) は自然言語処理のTransformerを画像分類に応用したモデルだが、従来は数億枚規模のデータセット（例: JFT-300M）と大規模計算資源が必要…

誰かの技術置き場

画像分類モデルDeiTについて調べたまとめ