前回cake-by-the-river.hatenablog.jp 今回は、前回紹介したTransformerの自然言語処理能力を画像処理の方面に応用した Vision Transformer (ViT) や、Contrastive Language-Image Pre-training (CLIP) について紹介していきます。 ViT 元論文： arxiv.orgVision Transformer (ViT) は Google が 2020 年に発表したモデル…

何だって、したしむ

もし生物情報科学専攻の学部生が "StableDiffusion" を理解しようとしたら 4 ~ViT & CLIP~