昨年末、Googleから、テキスト、画像、動画などのさまざまな情報から統合的に回答できるマルチモーダルモデル「Gemini」が登場した。このモデルで個人的に注目しているのは、何といっても動画を扱える点だ。開発環境「Vertex AI」を使って、動画についてGeminiに実際に質問してみた。

GoogleのマルチモーダルAI「Gemini Pro Vision」は、動画についてどこまで正しく答えられるか？【イニシャルB】