Coding Agent比較用の独自のベンチマーク、Harness Benchを作ってみた話

Codex、Claude Code、Cursor Agentを同じ実リポジトリのデバッグ課題で比較するHarnessBenchを作り、27問×14条件×378 runsで見えたことをまとめます