ハーネスエンジニアリングを自分のプロジェクトで実装してみた - Qiita
はじめに Morpho社の調査が興味深いデータを出しています。SWE-benchにおいて、ハーネス設計の違いでスコアが最大22ポイント変動する一方、モデルの入れ替えではわずか1ポイントしか変わりませんでした。 つまり「どのモデルを使うか」より「どんな環境でエージェントを走...