RAGに使うPDFをいい感じに前処理してみた - Qiita

はじめにRAGを自分で作るとなったときに、LangChainなどであらかじめ実装されているPDF用のモジュールに適当にそのまま資料を突っ込んだだけではあまり精度が出なかったりします。というのも、実際の資料には表やポンチ絵など、文字を視覚的に配置した要素が含まれていることが多々あり、そもそもテキストの抽出が上手くい…