Flash Attention 2 + 量子化でVLLMはどこまで軽くなる?ローカル運用に向けた画像枚数とメモリ使用量の検証

はじめに Sansan 技術本部 研究開発部の齋藤 慎一朗です。 最近、VLLM(Vision Large Language Model)やLLM(Large Language Model)をプロダクト応用できるかの検証、そのリリース関連の仕事をすることが増えています。 VLLMやLLMをローカル運用(ベンダーが提供するAPIを利用するのではなく、商用利用可能なモデルを自…