Insight Edge Tech Blog
id:waxwings37
同じ入力なのにスコアが変わる——LLM-as-a-Judgeの決定性を検証してみた
こんにちは!Insight Edge データサイエンティストの角田です。今回は、LLMを評価者として使う「LLM-as-a-Judge」の決定性について、手元の実験で検証した内容を共有します。 背景 実験設計 評価対象 評価モデルと回答生成モデルの分離 評価プロンプト 制御条件 結果 同一スコアの出現率 考察 gemini-2.5-proが揺れた原因 …