Platinum Data Blog by BrainPad ブレインパッド
id:bp-writer
ざっくりわかるRLHF(人間からのフィードバックを用いた強化学習)
概要