判例要約のファインチューニングで学んだ「スコアが高い ≠ 品質が良い」という教訓

Legal Brain で開発に携わっている菅原です。 今回は判例の要約を自動生成するにあたり、ファインチューニングしたモデルが自動評価指標では圧勝したにもかかわらず、専門家による評価ではまったく異なる結果になった話を紹介します。 背景 実験設定 データ 比較モデル ファインチューニング設定 自動評価指標:ROUGE と B…