誤差逆伝播なしで巨大Transformerは学習できるのか？ - HackMD

── ゼロ次最適化の次元依存下限から考える

hackmd.io