【Image2Text】Image Captioningなら現状 BLIP2 が簡単、最強なのかな?

Pythonスクリプトたったこれだけです。学習済みモデルは自動的にダウンロードされるため事前準備不要です。 from transformers import Blip2Processor, Blip2ForConditionalGeneration from diffusers.utils import load_image import torch processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b") mod…