オープンソースなLLM(calm2-7b)のCPU推論エンドポイントをAzureとllama-cpp-pythonでシュッとつくる|Ryuta Itabashi

こんにちは、https://twitter.com/iryutab という者です。 はじめに 12/05 追記: この方法は、デプロイが有効である間ずっとインスタンスが起動しっぱなしになってしまいます(基本VMです)。一週間少しで数万円に膨れてしまうので、使っていないときには停止させましょう。節約や、実際のプロダクトへの組み込みの際…