『Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective』を生成AIと学ぶ

arxiv.org 図でまとめ 論文に書いてあること 視覚言語モデル(VLMs)におけるバイアスの理解と軽減が研究の目的 画像エンコーダがバイアス生成に大きく寄与していることを示す 因果媒介分析を用いて、VLMの各モジュール(テキスト、画像、融合)がバイアスに与える影響を定量化 画像エンコーダのバイアス軽減に焦点を当て…