Index Index Flamingo 事前学習済みモデル LLM Architecture Vision Language Model / VLM 画像エンコーダー / Vision Encoder Perceiver Resampler Cross Attention 実装参考 Web サイト Flamingo 1つの学習済みモデルだけで、 Language : テキスト Vision : 画像、動画の 2 つのモーダルのデータを同時に、組み合わせ…

オムライスの備忘録

【深層学習】Flamingo