はじめに Sansan 技術本部研究開発部の齋藤慎一朗です。最近、VLLM（Vision Large Language Model）やLLM（Large Language Model）をプロダクト応用できるかの検証、そのリリース関連の仕事をすることが増えています。 VLLMやLLMをローカル運用（ベンダーが提供するAPIを利用するのではなく、商用利用可能なモデルを自…

Sansan Tech Blog

Flash Attention 2 + 量子化でVLLMはどこまで軽くなる？ローカル運用に向けた画像枚数とメモリ使用量の検証