asken テックブログ
id:techaskencontributor
SageMakerでvLLMを動かそう
Amazon SageMaker と vLLM を組み合わせて、高速な LLM 推論基盤を構築する方法を解説します。AWS の LMI(Large Model Inference)コンテナを活用し、AsyncLLMEngine による非同期処理、Continuous Batching によるスループット向上、コールドスタート対策まで、本番運用に必要な設定を網羅。serving.properties と model…