fltech - 富士通研究所の技術ブログ
id:f_fukumoto
LLM推論性能モデリング
こんにちは、富士通研究所のコンピューティング研究所の福本です。最近、LLM推論サービスが活用が進む中で、LLM推論サービスを高速化する研究開発が活発に行われています。一方で推論処理をサービス化するにあたって、LLM推論のスループットやレイテンシ(応答速度)がどのパラメータによって決まり変動するのか分かりづら…