AIエージェントの成功率をどう引き上げるか。Long-running taskにおけるスケーリング則と検証器の役割

こんにちは!Ai Workforce事業部FDEの恩田(さいぺ)です。 AIエージェントの進化も凄まじく、どんどん長時間のタスクをこなせるようになっています。この分野のベンチマークの第一人者であるMETRでも、最新のClaude Opus 4.6で10時間のタスクが50%の確率で完了できることが示されています(80%だと1時間)。 (出典: http…