Amazon SageMaker と vLLM を組み合わせて、高速な LLM 推論基盤を構築する方法を解説します。AWS の LMI（Large Model Inference）コンテナを活用し、AsyncLLMEngine による非同期処理、Continuous Batching によるスループット向上、コールドスタート対策まで、本番運用に必要な設定を網羅。serving.properties と model…

asken テックブログ

SageMakerでvLLMを動かそう