nltkでテキストを文・センテンス単位で分割する - 静かなる名辞

概要 自然言語処理やテキストマイニングをしていると文単位で処理・分析したいということはたまにあるので、テキスト(複数文)→センテンス(単一の文)という変換をしたくなることがあります。 英語の場合は、nltkを使うと簡単です。 nltk.sent_tokenizeで一発 >>> import nltk >>> s = "It's very easy. You should use …