StatsBeginner: 初学者の統計学習ノート
id:midnightseminar
無償配布の日本語・英語対訳コーパスのデータを綺麗にする
★めぼしいコーパスをまとめてダウンロードしてクリーニングして統合するPythonのコードを最後にのせてます。 ★少しソースを増やして、最終的には後日のエントリに書いてあるようなコーパス構成にしました。 日英対訳の(なるべく)綺麗なデータを得たい Transformerで機械翻訳をやろうと思ったのですが、てっとり早く試す…