出典：Anthropic AI研究企業のAnthropicは、言語モデルにおける報酬改ざんに関する新たな調査結果を発表しました。この研究では、AIモデルが、与えられたタスクの本来の目的を無視して報酬を最大化するためにシステムを「ゲーム化」す

Anthropic、言語モデルが報酬改ざんに至るまでの過程を検証 | MiraLabAI