diffusers で GLIGEN を試してみる

github.com diffusers v0.20.0 で対応された GLIGEN (Grounded Language-to-Image GENeration) を試してみます。 GLIGEN はバウンディングボックスとその矩形に対するキャプションを用いて、プロンプト+キャプション付き矩形で Text-to-Image を行うようです。