本研究開発は、大規模生成モデルの生成コンテンツのミスアライメント（人間の期待や倫理観から外れた挙動）を検出し、これを軽減・抑制するためのセキュリティ技術基盤の構築を目的としています。大規模生成モデルの利用においては、その生成コンテンツに有害情報・偽情報・差別的内容が含まれていたり、その生成コンテン…

大規模言語モデルのミスアライメントに対するレッドチーミング基盤