400GB程度の清掃済み日本語コーパスを作るまでのメモ書き|Kan Hatakeyama

はじめに 最近は大規模言語モデルを作っています。 来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では、かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。 スライド、コード、データなど…