PaliGemma の概要|npaka

以下の記事が面白かったので、簡単にまとめました。 ・PaliGemma – Google's Cutting-Edge Open Vision Language Model 1. PaliGemma 「PaliGemma」は、画像エンコーダーとしての「SigLIP-So400m」とテキスト デコーダーとしての「Gemma-2B」で構成されるアーキテクチャを備えたビジョン言語モデルです。「SigLIP」…