あるふ(@alfredplpl)さんが、早速、量子化バージョンを作成しアップロードされていたので、ありがたくお試しします。1.8Bです。せっかくなので、ローカルランタイムに接続して走らせてみました。RTX 3060(12GB)で、VRAMの占有も小さく(3767MiB)、コンパクトさを見せてくれます。 ollamaのpythonライブラリのchatモードで走…

地平線まで行ってくる。

llm-jp-3-1.8b-instruct-Q4_K_MをollamaとColabでうごかしてみる。