レイヤー正規化 (layer normalization) [Transformerでよく用いるバッチ正規化層] | CVMLエキスパートガイド

レイヤー正規化 (Layer Normalization)の処理内容と利点などを,「バッチ正規化との差異」の視点でまず説明したのち,Transformerを介して,どのようなTransformer系モデルでレイヤー正規化が使われているかも整理しておきたい(BERT/GPT, ViT/DETR)