GPT-2(124M)をllm.cでGoogle Colab環境で再現チャレンジしてみる|Masayuki Abe

今回は、下記の「GPT2(124M)をllm.cで90分間20ドルで再現してみましょう」という記事を参考に、Google Colabでも再現にチャレンジしました。 上記記事は、12層、12ヘッド、768次元の124Mトランスフォーマーモデルを、FineWebの100億トークンで訓練しています。 今回は、Google Colabで、上記コードを修正してみまし…