hanamichi_sukusukuのブログ
id:hanamichi_sukusuku
文章をTF-IDFのデータベースに変換
このプログラムではlivedoorニュースコーパスを利用する。 スポーツ、IT、映画、ライフの4つに分けたデータベースを生成する。 実行結果 genre.pickleというファイルにTF-IDFに文章を変換したデータを格納し保存する。 tfidfモジュール内で生成した単語辞書、テキストをIDで表現したデータ、全文章での単語の出現頻度のデ…