LLMがシンプルなチャットボットを超え、「ツールを使い、自律的に思考する」エージェントへと進化する中で、避けて通れないのが「評価（Evaluation）」のプロセスと考えています。どのエージェントが、どのようなサイエンス業務で真に役立つのか、それを客観的に測る物差しが必要です。現在、私は科学系AIエージェント（B…

Science Aid Tech Blog

エージェント評価のフレームワーク：Inspect AIの調査と選定の記録