OPTiM TECH BLOG
id:optim-ytokuda
Bunkai(日本語文境界判定器)でPDFテキスト抽出の改行位置をいい感じにする
R&D チームの徳田(@dakuton)です。 前回記事にてPDFの改行補正に関する記事を書いたあと、前回記事のような日本語文境界判定での利用に特化したBunkaiというライブラリが公開されたので、今回は続編として紹介します。 前回記事 tech-blog.optim.co.jp テストデータ 前回と同様、下記記事のPDFを使用しました。 財務省「…