低頻度語をぶっ壊す~How to subword-nmt~ - Qiita

LSTMとかの深層学習モデルで自然言語を扱うとき、 語彙数が増えると計算量やGPUメモリサイズが爆発的に増えてしまうことが多い。 予め低頻度語をBPEでサブワード化することで語彙サイズを減らそうというエントリー。 サブワード化ってなんだ。 あまり出現しない単語を、文字や部...