数GBのLLM用モデルを、LambdaでLinuxシステムコールを駆使して本番水準で動かす

はじめに お疲れ様です。2357giです。先日のre:Inventで参加したセッション「Build high-performance inference APIs with Lambda SnapStart」にて、「数GB級のLocal LLMをサーバレスで、本番環境の要求水準で動かす」方法を学んできました。 (その際のセッション形式が「チョークトーク」というもので、めちゃめちゃ良い…