マルコフ連鎖による文章自動生成 #2 文字列を分かち書き

ツイートをひたすら収集して600MBくらいのテキストデータが得られました。行数カウントすると、1,965,620 の文を収集できました。どの程度の学習データがあればいいのか分からない。 分かち書きとデータ分類 さて、得られた文章の前処理を進めます。 単語単位に文章を分解します。せっかく、応答文で集めたデータなので、…