pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

(文章はAIで校正しました) はじめに テキストマイニングでは、PDFの文章からテキストを抽出するタスクが重要となります。これは、PDFの文章ではしっかりとした日本語が多く使われているためです。しかし、PDFの文章は二段組のレイアウトや適当な場所に図表が挿入されているなど、テキストの抽出が難しい場合があります…