G-gen Tech Blog
id:ggen-sasashun
GKE Inference Quickstartを使用して生成AIモデルの推論サーバーをデプロイしてみた
G-gen の佐々木です。当記事では GKE Inference Quickstart を使用し、Google Kubernetes Engine(GKE)で Google Cloud のベストプラクティスに沿った生成 AI ワークロードのデプロイを試してみます。 GKE Inference Quickstart とは 事前準備 コマンド実行の準備 Hugging Face アクセストークンの準備 モデルの探索 マニ…