誤差逆伝播なしで巨大Transformerは学習できるのか? - HackMD

── ゼロ次最適化の次元依存下限から考える