StatsBeginner: 初学者の統計学習ノート
id:midnightseminar
TransformerやAttentionの分かりにくい点についてのメモ
ChatGPTの「GPT」はGenerative Pretrained Transformerの略であり、TransformerというのはGoogleが2017年に発表した『Attention is all you need』という論文で提案されたディープラーニングの画期的なアーキテクチャで、その論文のタイトル通り「Attention」という機構だけを使い倒している点が特徴的である。 ……という話…