radiology-nlp’s blog
id:radiology-nlp
Juman++, SentencePiece, BERT tokenizerの分かち書きを同じコードで書くための抽象クラス
0. 動機 自然言語処理のためには, 入力文を分かち書きし, 各トークンを数値に変換しなくてはなりません。 分かち書きのためのモジュールは Janome(MeCab), Juman++, SentencePiece, BERT tokenizer など色々提供されています。 しかし, 厄介なことに, これらは 形態素レベルの分かち書きを行うもの 形態素よりも細かいレベ…