備忘録
id:tam5917
Transformerの学習率を調整するSchedulerクラスをPyTorchで書いた
はじめに Attention is All You Needという論文で「warmup & ステップ数の逆平方根で学習率を減衰」させる学習率スケジューリングが提案されたが、そのようなスケジューリングを手軽に行うスケジューラを書いたということである。 ソースコード from torch.optim.lr_scheduler import _LRScheduler class TransformerLR(_L…