Google Colab:Mergekitによる日本語モデルMoEの作成|はち

0. はじめに Mistral AIによるMixtral -8x7bモデルの成功により、最近MoE(Mixture of Experts)モデルが流行ってきている気がします。 他にもPhi-2のMoEであるPhixtual-2x2bとかありましたね。 それに倣って、日本語モデルのMoEも作ってみたくなって試してみました。 以下が作ってみたモデルです。 HachiML/youri-2x…