数式を含むスキャン画像のPDFをOCRしてマークダウン形式に変換できる。Nougatを試す|はまち

Meta社が公開した数式を含むPDFのOCRモデル、Nougat (Neural Optical Understanding for Academic Documents)を試してみました。 PDFを入力すると、いい感じにLaTeX埋め込みマークダウン形式で出力されるので、いろいろ捗りそうです。 なお、コードはMITライセンス、モデルウェイトはCC-BY-NCライセンスになっています。 …