bitnet.cpp を試す|ぬこぬこ

tl;dr Microsoft が 1-bit LLM 推論フレームワーク bitnet.cpp を公開したよ llama.cpp をベースにした CPU 推論対応フレームワーク 8B パラメータの 1.58-bit 量子化モデルをシングル CPU で実行可能だよ macOS 環境におけるセットアップと実行手順を書いたよ(uv で実行確認) 英語での推論は良さそうだ…