golden-luckyの日記
id:golden-lucky
PDFから「使える」テキストを取り出す(第6回)
今日まで延々と「PDFからテキストデータを取り出すのは大変」という話を続けてきましたが、その構造を見るにあたっては、 hpdft という自作のツールを使ってきました。 大変とはいっても、まあ実現困難な話ではなく、この程度のPDFパーザであれば趣味プログラミングで自作できる範囲です。 しかし、べつにわざわざ自作しな…