AnthropicのClaude、有害な会話を自ら終了する機能を試験導入 “AIの福祉”研究の一環

Anthropicは、「Claude Opus 4/4.1」が有害または虐待的な会話を最後の手段として自ら終了する実験的機能を発表した。「AI welfare」に関する研究の一環で、事前テストではAIが“苦痛”のパターンを示すことが観察されたという。