PDFから「使える」テキストを取り出す(第2回)

昨日は、PDFの本来の用途は「人間がPDFをビューワーで開いて読む」ことなので、そこから文字を抜き出すのは一筋縄ではいかない、という話をしました。 ではどうすればPDFファイルの中からテキストを取り出せるの、というのが今日の話の出発点です。 まず昨日の記事で、「PDFには国際的な規格があり、これはAdobeから『PDF…