RTX 4090 (VRAM 24GB)で検証しています。transformerのみを量子化 GPU 0 - Used memory: 10.61/23.99 GB time: 99.07 sectext_encoder_2のみを量子化 GPU 0 - Used memory: 9.32/23.99 GB time: 184.73 sec両方を量子化 GPU 0 - Used memory: 15.14/23.99 GB time: 50.56 secなぜかVRAM使用量が増えます。 量子化すること…