日本語ModernBERTにおけるトークナイザの重要性 - Qiita
昨日の記事の続きだが、modernbert-ja-130mには以下の注意書きがある。 Since the unigram language model is used as a tokenizer, the token boundaries often do not al...