AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満 | AIDB

専門家レベルのLLMを対象にして、これでもかというほど難しい問題を集めた新しいベンチマーク「MMMU」を開発したことがウォータールー大学などの研究者らによって報告されています。