10bクラスの大規模言語モデルが、ファインチューニングを経てタスクを解けるようになるメカニズムを探るメモ|Kan Hatakeyama

追記・拡張版はこちら はじめに 最近は大規模言語モデルのファインチューニングにハマっています。 10bクラスの言語モデルが、どのようなメカニズムを通してユーザーの質問に回答できるようになるかについて、調べています。 最近の検討で生じた仮説は、「10bクラスのモデルは、実は質問文を殆ど理解できていない」という…