GitHub ActionsとLangfuseで作る、LLMのオンデマンド自動評価基盤

はじめに:AI開発特有の「評価の難しさ」とボトルネック こんにちは。レバレジーズでエンジニアをしている安藤です。 最近は主に、LLMを組み込んだプロダクトの品質管理(QAや自動評価基盤の構築)に注力しています。 LLMを組み込んだシステムの品質管理は、従来のWebアプリケーション開発とは異なる、非常に厄介な課題を…