Google Colabでの日本語Mambaの事前学習|はち

はじめに 昨年(2023年)末にMambaアーキテクチャが公開されました。 MambaはS4などと同様の状態空間モデルというもので、Transformerと比べて、 高速な推論 シーケンス長が伸びた際のメモリ効率の良さ 単純なモデル性能の良さ で優れている様です。 日本語モデルがないので、日本語Mambaの事前学習のコードを…