財務省の公開した交渉記録PDFをいじる その1(目次のPDF編)

自分でモロに忘れそうなので備忘録として。 作戦というか方針 データの入手 目次のOCR処理 目次ファイル 画像の切り出し Tesseract 4.x 目次のOCR 認識結果の例 OCR結果のテキストファイルの結合 まとめ 一時ファイルがじわじわと増殖するのでもっとスマートに行きたいところです。 作戦というか方針 まずは目次のPDFファ…