0.1-1B程度の日本語・大規模言語モデルを作る練習日記|Kan Hatakeyama

はじめに 最近は大規模言語モデルを作っています。 最終的には10B級のモデルを作るのですが、その前に、0.1-1b程度で練習をします。 本記事は、その取り組みのメモ・日記です。(逐次更新します) 注意点 ・日記なので、内容はかなり雑多です。 ・練習を兼ねたcode実装なので、先端知見が含まれているとも限りません…