Megatron-LMのソースコードを読む

NVIDIAが提案するTransformerをベースとする言語処理モデルの並列化実装。サーベイ記事はこちら↓↓↓ Githubのレポジトリには Data Preprocessing (データ前処理) Pretraining(事前学習) Evaluation and Tasks(評価) のコードが含まれています。 事前学習については BERT GPT T5 の3つのモデルについて、分散版とそう…