Qwen3-VLで画像内の座標を特定をしてみよう|CyberAgent AI事業本部公式note

初めまして。AI事業本部公式note初のアドベントカレンダー4日目を担当します。 CyberAgent AI Lab の髙橋です。 はじめに 近年、LLMの進化に伴い、VLM(視覚言語モデル:Vision Language Model)が急速に進化しています。 VLMとは、画像(Vision)とテキスト(Language)の両方を同時に理解できるAIモデルのことです。 …