こんにちは！Ai Workforce事業部FDEの恩田（さいぺ）です。 AIエージェントの進化も凄まじく、どんどん長時間のタスクをこなせるようになっています。この分野のベンチマークの第一人者であるMETRでも、最新のClaude Opus 4.6で10時間のタスクが50%の確率で完了できることが示されています（80%だと1時間）。（出典: http…

LayerX エンジニアブログ

AIエージェントの成功率をどう引き上げるか。Long-running taskにおけるスケーリング則と検証器の役割