GPT-4VなどマルチモーダルLLMの制限や応用を論文調査しました

こんにちは、AI製品開発グループ の太田です。 この記事では画像やテキストのマルチモーダルな大規模言語モデル(LLM:Large Language Model) についてご紹介します。 GPT-4VがOpenAIから発表されて2ヶ月が経ち、Azureからも動画のインプットに対応したGPT-4Vが提供されることが発表されました。 今後、さらにLLMが活発に…