Algomatic Tech Blog
id:h0jicha_dev
大規模言語モデル(LLM)における日本語評価の概観
大規模言語モデル(LLM)の日本語運用性能を評価するための内容をまとめました。評価方法を人手評価・LLM-as-a-judge・自動評価指標に分類し、JGLUEやMT-Benchなどのツールの利点や課題を解説します。