初めまして。AI事業本部公式note初のアドベントカレンダー4日目を担当します。 CyberAgent AI Lab の髙橋です。はじめに近年、LLMの進化に伴い、VLM（視覚言語モデル：Vision Language Model）が急速に進化しています。 VLMとは、画像（Vision）とテキスト（Language）の両方を同時に理解できるAIモデルのことです。 …

Qwen3-VLで画像内の座標を特定をしてみよう｜CyberAgent AI事業本部公式note