有価証券報告書を用いた日本語金融LLMベンチマーク「EDINET-Bench」、Sakana AIが公開/高度な金融タスクにてAIがどの程度対応できるかを評価

 Sakana AI(株)は6月5日、会計不正検知をはじめとする高度な金融タスクにおける大規模言語モデル(LLM)の性能を測定する日本語金融ベンチマーク「EDINET-Bench」を開発した。データセットをHugging Faceにて、構築ツールおよび評価コードをGitHubにて公開している。