PDFから「使える」テキストを取り出す(第4回)

昨日までで、PDFからテキストを取り出すにあたり、グリフから文字を手に入れるところまでを説明しました。 いや本当のことを言うと、まだ全然説明できてないんです。 でも、文字の話ばかりしていても先に進めないので、今日は(可能な場合には)PDFから文字を入手できるものとし、そこからテキストを再構築する話に進みま…