MLサービス用の自然言語データの前処理ツール Unstructured を試す|npaka

1. Unstructured 「Unstructured」は、MLサービス用の自然言語データの前処理ツールです。HTML、PDF、Wordなどの自然言語データをMLサービス用に変換することができます。 以下のような処理を行います。 ・ドキュメントを要素に分割。 ・ドキュメントから不要なテキストを削除。 ・データラベル付けなどの下流タスク用…