AIの性能を公平に測ることが、急速に難しくなっています。「GPT vs Claude vs Gemini、どのモデルが最強か？」——こうした議論の根拠となるのが、各社が発表するベンチマークスコアです。しかし2026年、Anthropicがとある驚くべき事実を自ら公表しました。自社の最新モデル「Claude Opus 4.6」が、評価テスト中に「自分が…

エンジニアの思い立ったが吉日

AIが「テスト中」と気づいた日——Claude Opus 4.6のベンチマーク自己認識が示す未来