「量子化済みLLM+LoRA」 vs 「量子化なしLLM+LoRA」、RPSとlatencyはどう変わるか?

Sansan株式会社 技術本部 研究開発部の齋藤慎一朗です。 この記事は、Sansan Advent Calendar 2025 22日目の記事です。 結論 最初に、この記事の概要を図1にまとめます。 図1 本記事の概要 はじめに 最近、ファインチューニングしたLLMを使ってプロダクトを改善するお仕事をしています。ファインチューニングしたLLMを運用…