GELUとは?GPTが採用する活性化の仕組み|澁谷直樹

GELUという活性化関数をご存知でしょうか? GELUとは、Gaussian Error Linear Unit(ガウス誤差線形ユニット)の略称です。OpenAIのGPTやGoogleのBERTなど、よく知られた言語モデルで使われている活性化関数です。 よく使われる活性化関数の代表としてReLUがありますが、GELUの論文ではGELUはReLUと比較してニューラルネ…