PDFをLLMで解析する前処理のパーサーは何が良いのか?(pdfminer, PyMuPDF, pypdf, Unstructured) - Qiita

現状の LLM は PDF ファイルを直接処理出来ない為、予めなんらかのプレーンテキスト形式に変換する必要があります。 (PDFを読める各チャットアプリも内部的には何らかの手段でプレーンテキスト形式に変換しているはずです) 変換を行ってくれるライブラリは複数存在する為、動作...