Ahogrammer
id:Hironsan
ゼロショットで画像を分類し、種類ごとにLLMでテキスト化・構造化する
RAGで使われる検索システムでは、テキストデータを対象とすることが多いですが、実際の文書には画像として重要な情報が含まれることも多くあります。これを踏まえ、LLMを用いて画像をテキスト化し検索できるようにする試みがありますが、人物写真や背景画像など本文との関連性が低い画像まで対象にするとノイズとなる課題…