u++の備忘録
id:upura
typo辞書を人力で作るためのTips
準優勝したKaggleのPetfinderコンペでは、元データの英単語の綴りミスなどの修正に用いる辞書を手動で構築しました。upura.hatenablog.com本記事では、このような辞書を構築した方法についてまとめます。 結論 概説 embeddingのout of vocabularyとなる単語を抽出する 登場回数を集計して降順にソートする Wordに貼って、…