G-gen の佐々木です。当記事では GKE Inference Quickstart を使用し、Google Kubernetes Engine（GKE）で Google Cloud のベストプラクティスに沿った生成 AI ワークロードのデプロイを試してみます。 GKE Inference Quickstart とは事前準備コマンド実行の準備 Hugging Face アクセストークンの準備モデルの探索マニ…

G-gen Tech Blog

GKE Inference Quickstartを使用して生成AIモデルの推論サーバーをデプロイしてみた