Wikipediaのデータを使いましたって書いてある論文は実際どうやって使える状態にしてるのか調べた話

つまりなにしたの? Wikipediaの日本語データを使って学習してる論文を見かけたのでどうやって使える状態にしてるのか調べてみた。 もちろん、本当に今回やった方法でやったのかを論文の筆者に確かめたわけではない。 概ね近い結果が得られる程度にはクリーニングできると嬉しい程度の調査。