テキストで画像分類/検索するならこれ【clip】 - Qiita
はじめに 個人開発で「人が座っている」「寝ている」といった行動を検知したいと思ったことはありませんか? 通常であれば学習用データを集めてモデルを学習する必要がありますが、これはかなり大変です。 そこで注目したのが CLIP というモデルです。 CLIPは「画像」と「テキス...